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Verfahren zum Erkennen von Zeichen auf einem Medi- 
um 

wobei das Medium abgetastet und ein Bit- mapped- Bi Id 
des Mediums erzeugt wird; 

wobei das Bit-mapped-Bild einer Strukturanalyse (103, 
203, 232) zum Isolieren einzelner Zeichen unterworfen 
wird und als Ausgabe der Strukturanalyse ein Bit-map- 
ped-Bild der Zeichen erzeugt wird; 

wobei die Zeichen vorlaufig identifiziert werden (234); 
und 

wobei jedes Zeichen auf der Basis des das Zeichen im Me- 
dium umgebenden Kontextes analysiert wird (104); 
dadurch gekennzeichnet, 

a) daft eine Textzeile in dem Medium zum Bestimmen 
von raumlichen Informationen uber die Textzeile analy- 
siert wird; 

b) daft Attributdaten fur jedes vorlaufig identtfizierte Zei- 
chen in der Textzeile gewonnen und diesem Zeichen zu- 
geordnet werden; und 

c) daft Mehrdeutigkeiten bei einem vorlaufig identifizier- 
ten Zeichen mit Hilfe der raumlichen Informationen uber 
die Textzeile und mit Hilfe der zugeordneten Attributdaten 
aufgelost werden (1502). 
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Beschreibung 

Die Erfindung bezieht sich auf das Gebiet der optischen Zeichen-Erkennungssysteme und insbesondere auf ein Vfer- 
^ fahren und eine Anordnung zum Erkennen von Zeichen auf einem Medium nach den Oberbegriffen der Anspriiche 1 und 

Eine Anzahl opUscher Zeichen-Erkennungssysteme (OCR-Systeme) sind bekannc. In tvpischer Ausfiihrung weisen 
derartige Systeme einen Scanner zum Abtasten einer Seite eines gedruckten Textes und zur Durchfuhrung einer Zeichen- 
erkennung an einern 'Bit-mapped Bild des Textes auf (vgl. R. ZIMMERMANN: "Automatische Erkennung von Schrift- 
ze.chen , VDI-Z 115 (1973) Nr. 11, August, Seiten 875-885). Die Zeichen konnen danach in einer Datei fines Compu- 
10 tersystems zur Weite^erarbeitung durch ein Textverarbeitungsprogramm oder ahnliches gespeichert werden 

Eimge bekannte OCR-Systeme enthalten einen Handscanner zum Abtasten einer Seite. Bei derartigen Systemen 
streicht die Bedienungsperson bei der Durchfuhrung der Abtastung mil dem Handgerat uber den gedruckten Text auf der 
Seite wobei normalerwe.se das Abtasten graphischer oder nicht-Text-enthaltender Abschnitte auf der Seite vermieden 
wird. Normaleweise wird die Seite in der Weise abgetastet, in der sie normalerweise gelesen wird (d. h. das Scannen er- 
15 folgt entlang der Spalten und spaltenweise von links nach rechts). 

Andere bekannte Systeme enthalten eine Entscheidungseinrichtung, die zum Feststellen und Angeben derjenigen 
Jeile des Textes benutet werden kann, welche von dem OCR-System zu verarbeiten sind. Einige dieser Systeme sind in 
der Lage, graphische Abschnitte der angezeigten Seitenzonen von Textabschnitten zu unterscheiden. Derartige Systeme 
bedingen jedoch dennoch einen manueUen Eingriff zum Markieren des Textes in der Richtung oder-ReihenfoIge des nor- 
20 malen Lesens und zum Marberen von Graphikabschnitten. 

Andere Systeme machen von einer Registrierungsmarke zum Anzeigen des Beginns von Textspalten Gebrauch. Diese 
Systeme erfordern ebenfalls noch manuelle Eingriffe zum Setzen von Registrierungsmarken 

p ^rl' T 0 " 8 ;^ £' S A ?£ UI ^^. M - WAHL beschreiben in dem Aufsatz "Document Analysis System", IBM J. 

25 ?^n? 0p A t t < \ f- 6 ' N ° V - 19 u 2 ' Sdten 647 ^ 656 ' eiD 001 System ' das in ist - SeiJmit gemischten 

. u ^-T^-^formaHonen abzutasten und zu erkennen, sowie zwischen Text- und nicht-Text-Bereichen zu un- 

terscneiden. 

Bekannte optische Zeichen-Erkennungssysteme konnen in zwei Kategorieren eingeteilt werden. Optiscbe Zeichen-Er- 
kennungssysteme der ersten Kategorie erkennen entweder eine einzelne Schriftart oder eine begrenzte Anzahl von 
Schnrtarter^und ihre Eingabe ist gewohnlich beschrankt auf eine Schriftart mil konstantem Zeichenabstand bei einer 
30 speziellen PunktgroBe. Optische Zeichen-Erkennungssysteme der zweiten Kategorie werden typischerweise als All- 
sclmftsysteme (omnifont systems) bezeichnet. Derartige Systeme sind in derLage, eine groBe Anzahl von Schriftarten in 
emem groBen Bereich von PunktgroBen entweder konstanten oder proportionalen Abstandes zu erkennen. Generell sind 
optische Zeichen-Erkennungssysteme, die eine groBe Anzahl von Schriften erkennen konnen, nicht in der Lage Doku- 
mente nut hohen Geschwindigkeiten zu verarbeiten, wie sie beispielsweise bei Systemen zur Erkennung einer begrenz- 
35 ten Anzahl spezieller Schnften realisierbar sind. 

Der Erfindung hegt die Aufgabe zugrunde, ein Verfahren und eine Anordnung zum Erkennen von Zeichen auf einem 
Medium nut erhohter Genauigkeit bei der Zeichenerkennung zu schaflfen 

Diese Aufgabe wird erfindungsgemaB durch ein Verfahren mil den Merkmalen des Anspruchs 1 sowie mil der im An- 
40 kennleichTel AnOTdnUng gel6st Vorteilha fte Weiterbildungen der Erfindung sind in den Unteranspriichen ge- 

vo^tS 1 ^ V ^ bigt bi ^ r alS g e S ens5tzlich angesehenen Eigenschaften der Erkennung irgendeiner Anzahl 
vonSchnftartenundderraschenDokumentenverarbeitung. 

ro .n^ erfindun gsgemaBe optische Zeichen-Erkennungssystem weist eine Scannereinrichtung zum Abtasten eines Doku- 
,™ "!f f m E f e »8 en .« n « B"-™>PP«> Bildes des Dokuments auf. Die Scannereinrichtung ist mil einem Compu- 
' H~ r f g °F^^ ? nen S P eicher zur Speichemng des Bit-mapped Bildes und einen Prozessor zum \ferarbehen 
™ * W*^ " ZUr Aus 8 abe von Daten aufweist, die die Zeichen auf der abgetasteten Seite darstellen 

Die Erfindung wird vorteilhaft rait Verfahrensschritten verwendet, die das Abtasten der Seite und die Erkennung und 
Ausgabe yon Zeichen auf der Seite in einer Reihenfolge ermoglicht, welche logisch die gleiche Reihenfolge ist, die eine 
AnaS ITS, " V v^ 8 m ™t Pf" geSChieht dUfch Parsing (""omaische Zergliederung mittels Struktur- 

A S f \ 5 ,n e u n f- Y' 6 .^ 1 V °" B16cke " UDd AuSgabe ^ BU5cke ™ einen Zeichen-ErkennungsprozeB in einer 
Reihenfolge, die gewohnlich die logische Lesefolge auf der Seite ist 

nnnlT^rrV 1 "! dn Zeichen - Erken n"ngsverfahren aus einer Kombination eines Schablonen-AnpaBprozesses 
BSr^L^o^n^^^T "J^T^ Mer kmal S analysepro Z eB ermoglicht die Zeichenerkennung auf der 
zSl urSrh?T h ^"^"e des Merkmalsanalyseprozesses ist es moglich, Zeichen in einer beliebigen An- 
MerkStf C . « e " Z " erken « en ' °" rCh Vewendun S des Schablonen-AnpaBprozesses ist in Verbindung mit 

Schablo^S VemUDfbger Dokumentendurchsatz moglich, und zwarohne die Notwendigkeit einer 

fikItion A Srf BLAS ^-7 be n C ^ rei ^x!; 1? ihrem AufS3tZ " Re g e 'g^teuerte Zeichenerkennung und Dokumentklassi- 
die InV^nr , T Ung , '^Z' 9 DA ^M-S y mposi um Braunschweig, Springer- Verlag, Seite 88, eine Kontextanalyse, 
die den Kontext von Emzelze.chen .m Text analysiert, um Fehler in der Einzelzeichenklassifikauon zu beheben Ansatz- 
punkte sind hjerbe. geometnsche Zusammenhange in Layoutstrukturen, die etwa eine Korrektur von GroB- in Klein- 
„n7w 7"! I ^ U " Slchere Klassifikationsergebnisse zu sicheren Entscheidungen umformen. Mit N-Grammen 
bessern Cm ^ TeXlinhalle ^f orthographische Fehler oder Segmentierfehler untersuchen und ver- 

ErfindungsgemaB wird von einem Kontext-AnalyseprozeB Gebrauch gemachu derraumliche Informationen uber die 
lextzeilen sowie genuine Attribute der Schriftzeichen verwendet. 

Das Zeichen-Erkennungsverfahren wird durch eine iterative Auflosung von Mehrdeutigkeiten in der Form vervoll- 
stand.gt, wodurch d,e Zahl der typographischen oder semantischcn (Schreib- oder Bedeutungs-)Fehler minimiert wird. 
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Die restlichen Unstimmigkeiten^^pin als Identifizierungen auf geringem Zuverlasl^^^sniveau gekennzeichnet. 

Angegeben werden auBerdem einige Techniken zur Erzeugung einer Schablonenubereinstimmung, z. B. die Erzeu- 
gung von Darstellungen von Zeichen mit Bits in einem Bit-mapped Bild des Zeichens, die fur das zu erkennende Zeichen 
dunkel- oder ausgeschaltet sein miissen, sowie zur Erzeugung von Darstellungen mit Bits, die ein- oder hellgeschaltet 
sein mussen. Diese Technik ermoglicht die Erkennung von Zeichen innerhalb gewisser Toleranzen. AuBerdem wird ein 5 
Verfahren zur Zeichenerkennung unter Verwendung von ZeichenschabLonen (character templates) fur den Fall beschrie- 
ben, daB Zeichen eng zusammengeriickt sind 

AuBerdem wird die Verwendung mehrerer Routinen bei dern MerkmalsanalyseprozeB beschrieben. Jede dieser Routi- 
nen dient der Erkennung einer Zeichenform. Angegeben werden Verfahren zur Beschreibung von Zeichen mit statisti- 
scher Information und zur Anpassung von Polygonen an verschiedene Erscheinungsformen des Zeichens. Auf der Basis lo 
dieser statistischen Information und der Polygone konnen Merkmalsanalyseprozesse die Fonnen der Zeichen erkennen. 

Beschrieben werden auBerdem Verfahren zur Unterscheidung von Text und Graphik auf einem DokumenL Wahrend 
einer Dokumentenverarbeitung zum Zwecke der Zeichenerkennung werden Graphik enthaltende Zonen eines Doku- 
ments identifiziert, die wahrend des Erkennungsprozesses auBer Betracht bleiben. 

Angegeben werden auch Moglichkeiten zur Messung der relativen Beschaffenheit, Struktur bzw. Textur kleiner Zonen 15 
des Dokuments, um festzustellen, ob die Zone Text oder Graphik enthalt 

Im folgenden wird die Erfindung anhand von in der Zeichnung schemausch dargestellten Ausfuhrungsbeispielen na- 
her erlautert. In der Zeichnung zeigen: 

Fig. 1 ein Gesamtablaufdiagramm des optischen Zeichen-Erkennungsverfahrens; 

Fig. 2(a) ein Ablaufdiagramm eines Gesamt-Parsingverfahrens bei dem optischen Zeichen-Erkennungs verfahren ge- 20 
maBFig. 1; 

Fig. 2(b) ein Ablaufdiagramm eines Seiten-Parsingverfahrens; 
Fig. 2(c) ein Ablaufdiagramm eines Block-Parsingverfahrens; 
Fig. 2(d) ein Ablaufdiagramm eines Zeilen-Parsingverfahrens; 

Fig. 3(a) einen Teil einer Seite, wie sie mit dem beschriebenen Zeichen-Ericennungsverfahren verarbeitet werden 25 
kann; 

Fig. 3(b) ein Bit-mapped Bild des Teils der Seite gernaB Fig. 3(a); 

Fig. 4 ein Ablaufdiagramm eines Verfahrens zur Erzeugung eines Text-Map-Feldes; 

Fig. 5 ein Ablaufdiagramm eines Verfahrens zur Entzerrung einer Seite; 

Fig. 6 ein Ablaufdiagramm eines Verfahrens zur Lokalisierung von Wegen auf einer abgetasteten Seite; 30 
Fig. 7 ein Blcckdiagramm, das zwei Datenstrukturen darstellt; 
Fig. 8 ein Ablaufdiagramm eines Verfahrens zur Lokalisierung von Blocken; 
Fig. 9 eine erste Seitenabbiidung, unterteilt in mehrere Blocke; 
. Fig. 10(a) eine zweite Seitenabbiidung, unterteilt in mehrere Blocke; 
Fig. 10(b) eine zweite Darstellung der zweiten Seitenabbiidung, wie sie abgetastet werden kann; 35 
Fig. 11(a) ein Gesamtablaufdiagramm eines Zeichen-Erkennungsverfahrens, das bei der Erfindung verwendbar ist; 
Fig. 11(b) ein Ablaufdiagramm eines SchablonenanpaBprozesses; 
Fig. 12(a) eine Darstellung eines Bit- mapped Bildes eines Zeichens; 
Fig. 12(b) eine Darstellung einer zweiten Version des Bit-mapped Bildes eines Zeichens; 

Fig. 13 ein Ablaufdiagramm eines Merkmalsanalyseprozesses; 40 

Fig. 14(a) eine Darstellung eines ersten Zeichenfensters; 

Fig. 14(b) eine Darstellung eines zweiten Zeichenfensters; 

Fig. 14(c) ein Poly gonanpaB verfahren; und 

Fig. 15 ein Ablaufdiagramm eines Kontext-Analyseprozesses. 

In der folgenden Beschreibung werden zahlreiche Einzelheiten, wie Pixeldichten, BytegroBen usw. angegeben, um das 45 
Verstandnis fur die Erfindung zu vertiefen. Es ist jedoch fur den Fachmann klar, daB die Erfindung auch ohne diese be- 
sonderen Einzelheiten realisiert werden kann. In anderen Fallen werden bekannte Schaltungen, Strukturen und lechni- 
ken nicht im einzelnen beschrieben, um die Erfindung nicht mit unnotigen Erlauterungen zu belasten. 

Im folgenden wird auf Fig. 1 Bezug genommen. Dort ist ein Gesamtablaufdiagramm des erfindungsgemaBen \ferfah- 
rens gezeigt. Erfi ndungsgemaB wird zunachst eine Seite abgetastet, Block 101. Wie beschrieben werden wird, ist die Er- 50 
findung zum Trennen und Ubersetzen des Textes auf einer Seite nicht nur dann in der Lage, wenn die Seite ausschlieBlich 
Text enthalt, sondern auch dann, wenn die Seite eine Kombination von Text- und sonstigen Zonen enthalL AuBerdem 
braucht die Erfindung keine manuellen EingrifFe zur Anzeige der normalen Reihenfolge des Lesens des Textes. 

Nach dem Abtasten der Seite wird die Seite geparst (syntaxanalisiert), Block 102. Das Parsing der Seite wird weiter 
unten genauer beschrieben und kann generell in die Funktionen des Seiten-Parsing, des Block-Parsing und des Zeilen- 55 
Parsing unterteilt werden. Nach dem- Parsing der Seite werden die Formen der einzelnen Zeichen mit Hilfe eines Zei- 
chen-Erkennungsprozesses, Block 103, festgestellt. Die Erfindung ist in der Lage, Zeichen einer beliebigen Anzahl von 
Schriftarten zu erkennen. 

Ein als Kontextanalyse bezeichneter Vorgang dient zur Prufung der relativen GroBen und Positionen der wahrend des 
Zeichen -Erkennungsprozesses festgestellten Formen, um den Text in Worte zu unterteilen und Unsicherheiten der Form 60 
zu klaren, Block 104. 

SchlieBlich werden die erkannten Zeichen fur die Ausgabe formatiert, Block 105. 



SCANNER 



Das beschriebene Verfahren und die Einrichtung sind in der bevorzugten Ausfuhrung so konzipiert, daB sie in \fcrbin- 
dung mil im Handel erhalttichen Mikroprozessoren mit 32-Bit-AdreCraumen arbeiten. Beispiele fur solche Mikroproze- 
soren sind die unter den Warenzcichen Motorola 68020 und Intel 80386 erhaltliche Mikroprozessoren. 
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Es ist fur den Fachman^^r, da!3 die Erfindung mit einer beliebigen AnzahWRhaus unterschiedlicher Computersv- 
steme mit einem Prozessor und einem Speicher reaiisiert werden kann. 

Als Scanner kann einer der verschiedenen bekannten Scanner oder ein zukunftig noch zu entwickelnder Scanner ein- 
gesetzt werden. Die.Erfindung ist konzipiert daflir, daB sie in Verbindung mit einem Scanner arbeitet, der eine Seite ge- 
druckter Information abzutasten vermag und ein Bit- mapped Bild der Seite erzeugt. \brzugsweise konnen bei der Erfin- 
dung preisgunstige optische Scanner in Verbindung mit ebenfalls preisgiinstigen Personal Computersystemen verwendet 
werden, urn das optische Zeichen-Erkennungssystem kostengiinstig und wirtschaftlich zu rnachen. 
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Nach der Abtastung einer Seite wird ein Bit-mapped Bild der Seite im Speicher eines Computersystems oder in ande- 
ren zur Speicherung von Bit-mapped Bildem geeigneten Systemen gespeichert. GemaB Fig. 2(a) beginnt der Parsing- 
ProzeB mit dem Seitenparsing, Block 201. Der Seiten-Parsingvorgang arbeitet an dem Bit-mapped Bild und teilt die Seite 
in eine Vielzahl von Blocken. Beim Seiten-ParsingprozeB wird versucht, die nicht-leeren Teile der Seite in eine Vielzahl 
15 von Blocken zu unterteUen und zwischen Text und nicht-Text oder Graphik zu unterscheiden. Mit dem Seiten-Parsing 
wird versucht, sicherzusteUen, daB ein einzelner Block entweder nur Text oder nur nicht-Text enthalt. Nicht-Text-Biocke 
werden von der Weiterverarbeitung ausgeschlossen. 

Bei dem Seiten-ParsingprozeB, Block 201, wird die Struktur oder Textur des abgetasteten Bildes zum Trennen von 
Text und Graphik und zur Feststellung des Vorhandenseins von Spalten und Kopfizeilen analysiert. Auf der Basis eines 
20 normalisierten, zweidimensionalen MaBstabs der ortlichen Dichte von schwarz-weiB-Ubergangen werden Bereiche auf 
der Seite entweder als Graphik, als Text oder als Linien charakterisiert. Die Bereiche werden dadurch in Blocke gmp- 
piert, daB Wege von weiBen Raumen gefunden werden, die Bereiche ahnlicher Textur oder Beschaffenheit (z. B. mit ahn- 
licher Dichte von schwarz-weiB-Ubergangen) umgeben. Wenn sie nicht durch Linien oder ubergroBe weiBe Raume ge- 
trennt sind, werden benachbarte Blocke mit ahnlichen Beschaffenheits- und Strukturcharakteristiken und Ausrichtung 
25 zusammengefaBt. Der Seiten-ParsingprozeB, Block 201, analysiert danach die relative Lage von Blocken, urn festzustel- 
len, welche Blocke andere Blocke nach Zeilenhohe, Blockbreite und Vertikalposition auf der Seite uberlappen. Der Sei- 
ten-ParsingprozeB kann danach eine vemunftige Interpretation des Seitenlayout konstruieren. Die endgiiltige Ausgabe 
des Seiten-ParsingprozeBblocks 201 ist ein geordneter Satz von Biockdeskriptoren, welche die normale Lesefolge nach- 
zeichnen, die durch das ermittelte Seitenlayout impliziert wird. 

Ein Block-ParsingprozeBblock 202 analysiert die schwarz-weiB-Ubergange zur Berechnung des Grades des Versatzes 
(skew) und zur Lokaiisierung horizontaler Wege, welche einen vorgegebenen Textbiock in einzelne Textzeilen untertei- 
len. Der Block-ParsingprozeB, Block 202, bestimmt Vertikallinien und eliminiert die Linien von der weiteren Verarbei- 
tung. 

Der Zeilen-ParsingprozeB, Block 203, sucht jede Zeile von links nach rechts ab und iokaHsiert vertikale Freiraume. 
Derartige vertikale Freiraume trennen typischerweise einzelne Worte und Zeichen voneinander Die von Leerstellen bzw 
Freiraumen getrennten Abschnitte werden vom linken Ende jeder Zeile aus verarbeitet und fur die Erkennungsroutinen 
in einen Puffer ubertragen. 

Ein Zeichen-Erkennungsalgorithmus, Block 103, verarbeitet die gepufferten Abschnitte und versucht, einzelne Zei- 
chen zu erkennen. Wie genauer unter Bezugnahme auf den Zeichen-Erkennungsverarbeitungsabschnitt erlautert werden 
wird, werden unerkannteZeilenabschnitte einer Anzahl von Verarbeitungsschritten unterworfen, um eine Zeichenerken- 
nung zu erreichen. Ein "Dehnierungs'-Verfahren IokaHsiert und loscht Unterstreichungen und horizontal Striche fur die 
Zeichenerkennung. Ein M Entschnbrkelungs M -ProzeB scheidet Zeichen aus, welche durch gewundene Freiraume getrennt 
sind. Ein "Abschwachungs ,, -ProzeB loscht "Pfeffer und Salz"-Hintergrundstrukturen. Ein "Ausdiinnungs^ProzeB wirkt 
einer ubermaBigen Komprimierung der Zeichen entgegen und macht die Zeichen erkennbar. Ein M Flick"-ProzeB bessert 
45 leicht unterbrochene Zeichenformen aus. Zeilenabschnitte, die auch danach noch unidentifiziert bleiben, werden in ei- 
nem Zuruckweisungs-Cachespeicher zur spateren Verarbeitung durch einen n SeitenanpaB M -ProzeB und einen Kontext- 
AnalyseprozeB, Block 104, gepufFert. 

SEITEN-PARSING 

50 

Im folgenden wird auf Fig. 2(b) Bezug genommen, in der ein Ablaufdiagramm des Seiten-Parsingprozesses genauer 
dargestellt ist. Zweck des Seiten-Parsingprozesses ist die Annahme des Bit-mapped Seitenbildes als Eingabe und die Er- 
zeugung einer geordneten Liste von Textblocken als Ausgabe. Nach dem Abtasten einer Seite wird eine Bit-mapped Ab- 
bildung der Seite erzeugt Aus dieser Bit-mapped Abbildung werden drei Felder erzeugt, Block 212. 

Bei dero bevorzugten Ausfuhrungsbeispiei wird das Seitenbild mit einer Auflosung von 300 Punkten pro ZoU abgeta- 
stet, und der Parsing-ProzeB erzeugt seine Felder durch Analysieren jeder achten Abtastzeile des Bildes bzw. der Abbil- 
8/Tm ^' ES WUrdC ex P erimentel1 festgestellt, daB die Abtastung der Seite an jeweils der achten Abtastzeile (aile 
S/JUU eines Zolls bei dem beschriebenen Ausfuhrungsbeispiei) eine ausreichend gute Auflosung zur Lokaiisierung und 
hiinordnung von besetzten Bereichen auf der Seite ergibt. Die Verwendung nur jeweils der achten Abtastzeile des Bildes 
reduziert die ProzeBzeit und die Speicheranforderungen betrachUich. Es ist jedoch fur den Fachrnann klar, daB andere 
Abtastzyklen im Rahmen der Erfindung verwendet werden konnen. 

Im folgenden wird auf Fig. 3(a) Bezug genommen, in der ein vergroBerter Bereich einer Seite 300 gezeigt ist Der Be- 
reicn der Seite 300 stellt eine Zone einer Seite dar, die bei dem beschriebenen Ausfuhrungsbeispiei in vierzig Zeilen ab- 
getastet ist. Jedes der Quadrate, beispielsweise Quadrat 301, stellt eine Zone von acht Abtastzeilen Hohe und acht Bits 
Breite dar. Der dargestellte Bereich der Seite 300 ist funf Quadrate hoch und vier Quadrate breit. 

In Fig. 3(b) ist ein Bit-mapped Bild desselben Bereichs einer Seite gezeigt. Fig. 3(a) und 3(b) sind charakteristisch fur 
ein be! opuschen Zeichen-Erkennungssystemen auftretendes Problem. Bei derartigen Systemen kann ein Buchstabe bei- 
spie| swei se der Buchstabe "O" 302 in Fig. 3(a) durch eine relativ grobe Annaherung des BucHstabens "O" 7 B durch 
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die Darstellung 312 in Fig. 3(b) ^J^nLieri werden. Dariiberhinaus konnen Text uni^^hikelemente auf einer einzi- 
gen Seite vermischt sein. So ist beispielsweise das graphische Bild 303 mit dem Text inFig. 3(a) vermischt. Die aquiva- 
lente Bit-mapped Zone ist bei 313 gezeigt. Es ist fur den Fachmann klar, daB Bilder unter weiteren Problemen der Klar- 
heit und der Scharfe als Folge der Transformation in eine digitale Bit-mapped Abbildung leiden konnen. 

Ein durch den Seiten-ParsingprozeB des beschriebenen Ausfuhrungsbeispiels erzeugtes erstes Feld ist ein horizontales 5 
Populationszahlfeld. Jedes Element in diesem Feld enthalt einen Zahlwert der Zahl von Eins( M 1 **)-Bits aus vier aufeinan- 
derfolgenden Bytes (32 Bits aus einer abgetasteten Scanzeile). Daher ist die durch jedes Element dieses Feldes darge- 
stellte Zone 32 Bits breit und 8 Bits hoch. Bezugnehmend auf Fig. 3(b), haben die 32 Bits in der Abtastzeile 320 vierzehn 
1-Bits. Daher wird der 8-Bit-hohe mal 32-Bit-breite Bereich in den Blocken 331, 332, 333, 334 in dem horizontalen Po- 
pulationszahlfeld durch ein den Wert 14 enthaltendes Element dargestellt, dem Gesamtzahlwert der 1-Bits in der Abtast- 10 
zeile 320. Die Abtastzeile 321 hat null 1-Bits, Zeile 322 hat neun 1-Bits, Zeile 323 hat fiinf 1-Bits und Zeile 324 hat 
sechsundzwanzig 1-Bits, und jede dieser 8-Bit hohen mal 32-Bit breiten Zonen werden im Horizontalpopulationszahl- 
feld mit entsprechenden Werten dargestellt. 

Ein zweites Feld, das bei dem beschriebenen Ausfuhrungsbeispiel der Erfindung verwendet wird, ist ein Vertikalpo- 
pulationszahlfeld. Jedes Byte im Vertikalpopulationszahlfeld enthalt die Gesamtzahl von Eins ("1")-Bits in vier Bytes, 15 
wobei ein Byte aus jeder der vier aufeinanderfolgend abgetasteten Scan-Zeileo resultiert Beispielsweise kann eine Ein- 
gabe im Vertikalpopulationszahlfeld Byte 340, 341, 342 und 343 darstellen und einen Wert von 4 haben (Byte 340 hat 
zwei 1-Bits, Byte 341 hat null 1-Bits, Byte 342 hat zwei 1-Bits und Byte 343 hat null 1-Bits). Bei dem beschriebenen 
Ausfuhrungsbeispiel enthalt das Vertikalpopulationszahlfeld eine Matrix, in der Zeilen der Matrix die Spalten des Bit- 
mapped Bildes und Matrixspalten Zeilen des Bit-mapped Bildes darstellen. Dies fuhrt zu einer effizienten Verarbeitung 20 
bei der Implementierung des bevorzugten Ausfuhrungsbeispiels. 

Ein drittes Feld bzw. eine dritte Matrix bei dem Seiten-ParsingprozeB des beschriebenen Ausfuhrungsbeispiels ist ein 
horizontales Phasenanderungsfeld. Jede Eingabe dieses Feldes stellt 32 Bits einer Abtastzeile dar, so daB das horizontale 
Phasenanderungsfeld die gleichen Abmessungen wie das horizontale Populationszahlfeld hat. Jedes Feldelement enthalt 
die Zahlung der horizontalen Phasenanderungen (Obergange zwischen Durchlaufen von Einsen und Durchlaufen von 25 
Nullen) in den 32 Bits. Die durch jedes Element des horizontalen Phasenanderungsfeldes dargestellte Zone ist 32 Bits 
breit und 8 Bits hoch. So haben beispielsweise die 32 Bits in Zeile 320 sieben Obergange von Einsen zu Nullen oder von 
Nullen zu Einsen, die 32 Bits in Zeile 321 haben keine Ubergange, die 32 Bits in Zeile 322 haben acht Ubergange, die 32 
Bits in Zeile 323 haben zwei Ubergange und die 32 Bits in Zeile 324 haben zwei Ubergange. 

Auf der Basis der horizontalen Popuiationszahl- und horizontalen Phasenanderungsfelder wird ein Text-map-Feid er- 30 
zeugt, Block 213. Jedes Element des Text-map-Feldes stellt einen Bereich von 32 Bits Breite mal 8 Bits Hohe dar 

Im folgenden wird auf Fig. 4 Bezug genomrnen, in der ein Ablaufdiagramm zum Konstruieren des Text-map-Feldes 
dargestellt ist. Das Text-map-Feld wird durch einen ProzeB aufgebaut, der jede Spake des Horizontalpopulationszahlfel- 
des abwarts abtastet, um nach einern nicht-Null-Element zu suchen, Block 401. Ein nicht-Null-Element im horizontalen 
Populationszahlfeld zeigt das Vorhandensein von Text, Graphik oder Linien im entsprechenden Feld des Bit-mapped Bil- 35 
des an. Nach Auffinden eines nicht-Null-Elements lauft der ProzeB in der Spalte des Horizontalpopulationszahlfeldes ab- 
warts und sucht nach einem Null-Element. Bei jedern verarbeiteten Element in einem Durchlauf von nicht-Null-Elemen- 
ten werden die entsprechenden Horizontalphasenanderungszahlungen summiert. Der ProzeB zahlt auch die Gesamtan- 
zahl von Elementen in einem Durchlauf von nicht-Null-Elementen, Block 402. 

Wenn die Zahl von Zeilen in einem Durchlauf groBer oder gleich 2 und kleiner oder gleich 12 ist, Zweig 403, und die 40 
Sumrne der Phasenanderungen groBer oder gleich 8 und kleiner oder gleich 22 ist, Zweig 404, hat die entsprechende 
Zone des Bit-mapped Bildes die Struktursignatur eines Textbereichs. Die Text-map-Feldelemente entsprechend jedem 
der Zeilenelemente im Durchlauf werden auf einen Code gesetzt, der angibt, daB eine Textzone vorliegt, Block 405. Bei 
dem beschriebenen Ausfuhrungsbeispiel werden diese Elemente auf einen Wen von TXTX gesetzt. 

Wenn der Zeilenzahlwert nicht groBer als oder gleich 2 und kleiner als oder gleich 12 ist, Zweig 406, wird eine Prii- 45 
fung durchgefuhrt, um festzustellen, ob der Zeilenzahlwert groBer als oder gleich 24 ist, Zweig 407. Wenn der Zeilen- 
zahlwert groBer gleich 24 ist, enthalt die entsprechende Zone des Bit-mapped Bildes eine Vertikallinie. Die Text-map- 
Feldelemente entsprechend den Horizontalpopulationszahlelementen im Durchlauf werden auf einen Wert gesetzt, der 
eine Vertikallinie bezeichnet, Block 408. Bei dem beschriebenen Ausfuhrungsbeispiel werden diese Elemente auf einen 
Wert von TXVR gesetzt. 50 

Wenn die Zeilenzahlung kleiner als 2 oder zwischen 12 und 24 ist, Zweig 409, ist dies ein Zeichen dafur, daB Graphik 
vorhanden ist. Die entsprechenden Text-map-Feldelemente werden auf einen Wert gesetzt, der das Vorhandensein von 
Graphik anzeigt, Block 410. Bei dem beschriebenen Ausfuhrungsbeispiel werden diese Elemente auf einen Wert von 
TXGR gesetzt. 

Wenn die Zeilenzahlung zwischen 2 und 12 liegt, der Phasenanderungszahlwert jedoch entweder kleiner als 8 oder 55 
groBer als 22 ist, Zweig 411, wird ebenfalis das Vorhandensein von Graphik angezeigt. Die korrespondierenden Text- 
map-Feldelemente werden auf den Code eingestetit, der angibt, daB die entsprechenden Bits des Bit-mapped Seitenbil- 
des Graphik enthalten, Block 412. ' 

Wenn das Ende des Horizontalpopulauonszahlfeldes noch nicht erreicht worden ist, Zweig 413, wird die spaltenweise 
Verarbeitung fortgesetzt, wobei nach dem nachsten nicht-Null-Element gesucht wird, Block 401. Anderenfalls wird der 60 
ProzeB beendet, Zweig 414. 

Es wurde expcrimentell festgestellt, daB der obige ProzeB ein ziemlich genaues Bild daruber ergibt, ob die Zonen der 
Bit-mapped Abbildung Text, Graphik oder vertikaie Linien enthalten. Typischerweise treten die Zeichen in einem ge- 
wohnlichen Text in einem wciten Hohenbereich auf, der norma lerweise 2 bis 12 abgetastete Scannerzeilen einnimmt. 
Daher pruft der oben beschriebene ProzeB Durchlaufzeilenzahlwerte von nicht-Null-Elcmenlen im Bereich von 2 bis 12 65 
Zeilen. 

Es wurde auBerdem experimenteLl festgestellt, daB die Gesamtanzahl von Phasenanderungen in einem vorgegebenen 
Durchlauf von nicht-Null-Elementen uber einen ZeichcngroBenbercich von angenahert 4 bis 24 Punktcn im wesentli- 
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chen konstant bleibt, obw^^E&ichen mit groBeren Hohen weniger PhasenandSl^en pro Abtastung als Zeichen gerin- 
gerer Hone haben. Daher ist bei dem beschriebenen Ausfuhrungsbeispiel ein Phasenanderungsgesarntzahlwert bei einem 
Durchlauf von nicht-Nuil-Elementen im horizontalen Populationszahlfeld zwischen 8 und 22 ein Indikator fur gedruck- 
ten Text. 

5 Der Seiten-Parsing-ProzeB rnacht dann einen anderen Durchlauf und versucht, einen relativ groBen Text zu iokalisie- 
ren, Block 214. Der Vorgang zum Lokalisieren eines groBen Textes lauft im wesendichen ebenso wie der zuvor beschrie- 
bene Vorgang des Aufbaus des Text-map-Feldes ab, ausgenornmen, daB der Vorgang zum Lokalisieren eines groBen Tex- 
tes jede vierte Scanzeile und jedes vierte Element in dem Phasenanderungsfeld priifL Daher sucht die Routine fur groBen 
Text in dem Bit-mapped Bild mit 1/4 der Auflosung des Prozesses zum Lokalisieren eines Textes normaler GroBe und 

10 identifiziert Text bis zu einer vierfachen GroBe des Normaltextes. Bei dem beschriebenen Ausfuhrungsbeispiel ist der 
groBte, mit dieser Routine auffindbare Text 48 Abtastzeilen hoch. Bei 300 Abtastzeilen pro Zoll entspricht dies einem 
Text einer Hdhenabmessung von 3,25 cm oder etwa 92 Punkten. Text-Map-Feldzellen entsprechend den Zonen in der 
Bit- mapped Seitenabbiidung, in denen ein groBer Text mit dem zuvor beschriebenen ProzeB gefunden wurde, werden auf 
einen Wert eingestellt, der einen GroBtextinhalt kennzeichnet Bei dem beschriebenen Ausfuhrungsbeispiel ist dieser 

15 WertTXTH. 

In dem Seiten-Parsing ProzeB wird versucht, Blocke mit nur-Text von ganz weiBen Blocken, Graphik enthaltenden 
Blocken oder Blocken mit vertikalen Linien zu trennen. Als Teil dieses Prozesses wird bei dem beschriebenen Ausfuh- 
rungsbeispiel in einem Seiten-Parsing ProzeB versucht, den ungefahren Schragfehler bzw. Versatz (skew) der Seite zu 
bestimmen und das Text-Map-Feid sowie das Vertikalpopulationszahlfeld auf einen derartigen Schragfehler einzustellen, 
20 Block 215. 

Im folgenden wird auf Fig. 5 Bezug genommen, in der ein Ablaufdiagramm des bei dem beschriebenen Beispiel be- 
nutzten Verfahrens zur Entzerrung einer Seite dargestellt ist. Zunachst werden Gesamtschragfehler- und Abtastzahlungs- 
variable auf Null initialisiert, Block 501. 

Im Text-Map-Feid wird danach jede Spalte abwarts abgetastet, urn nach zusammenhangenden Textzellen zu suchen, 

25 Block 502. Wenn zusammenhan gende Textzellen lokalisiert sind, wird eine erste Variable, die benutzt wird, wenn Zellen 
links der derzeitigen Textzelle (LEFT) gepruft werden, auf -1 gesetzt. Eine zweite Variable, die benutzt wird, wenn Zel- 
len rechts der derzeitigen Textzelle (RIGHT) gepruft werden, wird auf 1 gesetzt, Block 503. 

Fur jede Textzelle, die der ersten Textzelle im Durchlauf folgt, werden Zellen links und rechts der Textzelle im Text- 
Map-Feid gepruft. Wenn die Zelle links leer ist (d. h. die Zelle ist nicht als Text-, Graphik- oder VertikaUinien enthal- 

30 tende Zelle angegeben, wobei die o. g. TX7TX, TXVR, TXTH oder TXGR-Codes verwendet werden), so wird die Ge- 
samtschragfehler- Variable urn den Istwert von LEFT inkrementiert, und die Abtastzahlvariable wird um 1 inkrementiert. 
Ist die Zelle besetzt (enthalt sie TXTX, TXVR, TXTH oder TXGR), so wird LEFT auf 1 gesetzt und die Gesamtschrag- 
fehler- Variable und die Abtastzahlwert- Variable werden nicht modifiziert, Block 504. Wenn die Zelle im Text-Map-Feid 
rechts von der derzeitigen Zelle leer ist, so wird die Gesamtschragfehler- bzw. Gesamtverzerrungs variable um den Wert 

35 von RIGHT inkrementiert, und die Abtastzahlwert- Variable wird um 1 inkrementiert. Wenn die Zelle besetzt ist, wird 
RIGHT of -1 gesetzt, und die Gesamtschragfehler- Variable und Abtastzahlwert- Variable werden nicht modifiziert, 
Block 505. 

Wenn mehrere Zellen beim Durchlauf der Textzellen vorhanden sind, werden die Blocke 504 und 505 fur diese wei- 
teren Zellen wiederholt, Zweig 506. Anderenfalls, wenn mehrere Zellen im Text-Map-Feid sind, Zweig 507, werden sie 
40 in einem anderen Durchlauf der Textzellen abgetastet, Zweig 508. Nach dem Priifen der gesamten Textabbildung (Text- 
Map), Zweig 509, wird ein angenaherter Schragfehler fur die Seite berechnet, und das Text-Map-Feid und das vertikale 
Populationszahlfeld werden verschoben, um die berechnete Verzerrung bzw. den berechneten Schragfehler zu kompen- 
sieren, Block 510. Der angenaherte Schragfehler wird dadurch berechnet, daB man die Gesamtschragfehler- Variable 
durch die Abtastzahlung teilt. Dieser Vorgang fuhrt zu einer Annaherung des Schragfehlers fur die Seite als Anzahl der 
45 Zeilen pro 4096 Spalten. Die Text-Map- und Vertikalpopulationszahl-Felder werden danach ausgerichteL 

Bei dem oben beschriebenen Verfahren der Schragfehlerjustierung wird unterstellt, daB der Text auf einer Seite gene- 
rell in horizontalen Zeilen auf der Seite angeordnet ist Das Text-Map-Feid, das erfindungsgemaB gewonnen wird, hat 
eine gute Vertikalauflosung (bis 1/38 eines Zolls). Wenn eine Seite einen Schragfehler hat, so treten Leerzellen an Steilen 
auf, die eigentlich Textzellen einnehmen muBten. Das oben beschriebene \ferfahren macht diese Annahmen nutzbar, um 
50 den angenaherten Schragfehler zu bestimmen. 

Nach der Einstellung einer angenaherten Schraglage werden horizontal und vertikale Verlaufe weiBer Steilen im Text 
lokalisiert, Block 216. Zweck der Lokalisierung dieser Leerstellenverlaufe ist die Trennung von Textblocken. Bei dem 
beschriebenen Ausfuhrungsbeispiel wird das entzerrte Text-map-Feld nach horizontalen Leerstellenverlaufen bzw. hori- 
zontalen weiBen Zwischenraumen gepruft (Leerstellen oder weiBe Raume konnen als Zellen im Text-map-Feld definiert 
55 werden, die nicht mit TXTX, TXVR, TXTH oder TXGR codiert sind). Das erfindungsgemafie Verfahren betrachtet eine 
Zone als horizontalen Weg, wenn ein weiBer oder freier Raum existiert, der wenigstens 8 Pixel breit und 192 Pixel in Ho- 
rizon talrichtung der Seite lang ist. In ahnlicher Weise werden vertikale Leerraumveriaufe oder Wege unter Verwendung 
des Text-map-Feldes lokalisiert. Bei dem bevorzugten Ausfuhrungsbeispiel der Erfindung wird eine Zone als vertikaler 
Weg angesehen, wenn er einen WeiBraum- oder Leerraumbereich von wenigstens 16 Pixel Breite und 192 Pixeln Lange 
60 in der Vertikalrichtung der Seite hat. Die oben genannten Langen- und Breitenabmessungen fur horizontale und vertikale 
Wege wurden auf experimentellem Wege von der Anmelderin bestimmt, um horizontale und vertikale Wege durch ge- 
druckten Text zu lokalisieren. 

Im folgenden wird auf Fig. 6 Bezug genommen, in der ein Ablaufdiagramm eines Verfahrens zur Lokalisierung von 
Wegen durch den Text dargestellt ist. Als erster Schritt bei der Lokalisierung von Wegen wird ein Verfahren verwendet, 
65 durch das obere, untere, linke und rechte Rander der Seite effektiv ignoriert werden, Block 601. 

Bei dem bevorzugten Ausfuhrungsbeispiel der Erfindung erfolgt eine Maskierung der Rander durch Erzeugung einer 
Version des Vertikalpopulationszahlfeldes, bei der jede Zelle des Vertikalpouplationszahlfeldes eine 32 x 32 Pixel-Qua- 
dratzone des ursprunglichen Bit-mapped Bildes darstellt. Eft^ktiv stellt jede Zelle in dieser Version des Vertikalpopula- 
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tionszahlfeldes vier aufeinander^j^^de Zelien in einer Spalte des urspriinglichen^^iaLpopulationszahlfeldes dar. 
Die komprimierte Version des Verukalpopulationszahlfeldes wird sodann "verwischt , \ 

Diese Technik wird bei der Erfindung benutzt, um ein Bild in einer Anzahl von Richtungen zu verschieben und eine lo- 
gische ODER-Operation an dem urspriinglichen Bit-mapped Bild und dem verschobenen Bit-mapped Bild durchzufuh- 
ren. Im Ergebnis expandiert diese Methode Text oder Graphik enthaltende Bereiche, wahrend die dazwischenliegenden 5 
Raume und Grenzbereiche enger gemacht werden. Die restlichen weiBen Randbereiche werden fur das Weg-Auffin- 
dungsverfahren im Vertikalpopulationszahlfeld als nicht-verfugbar markiert. Diese Methode wird unter Bezugnahme auf 
die Beschreibung der Zeichenerkennung weiter unten genauer beschrieben. 

Danach wird ein Feld, genannt Weg-map-Feld, zur Speicherung der horizontalen und vertikalen Weginfonnationen er- 
zeugt, Block 602. Das Weg-map-Feld hat dieselbe Aufiosung wie das Text-map-Feld Jede Spalte stellt 32 Bits der auf- to 
genommenen Scanlinie dar und jede Zeile stellt eine Abtastung bei jeder achten Scanzeile des Bildes dar. In dem Weg- 
map-Feld wird die Existenz eines horizontalen Weges durch Setzen der Bits in einem Eintrag im Feld angezeigt. Das 
Vorhandensein eines vertikalen Weges wird durch Setzen eines anderen Bits im Eintrag gekennzeichnet 

Bei dem beschriebenen Ausfuhrungsbeispiel wird als erster Schritt bei dem Aufbau des Weg-map-Feldes fur ein Set- 
zen der am weitesten links und rechts gelegenen Spalten und der obersten und untersten Zeilen des Weg-map-Feldes ge- 15 
sorgt, um das Vorhandensein von Wegen anzuzeigen. Dieser Schritt stellt sicher, daB ein Weg, der in den Rand einer Seite 
miindet, einen Block erzeugt. Bei vollstandiger Besetzung umrandet das Weg-map-Feld sowohl Text- als auch Graphik- 
blocke mit horizontalen und vertikalen Wegen (Freiraumen). 

Nach der Erzeugung der Weg-map und der Initialisierung der am weitesten links und rechts gelegenen Spalten und 
obersten und untersten Zeilen der Weg-map werden horizontale Wege erzeugt, Block 603. Jede Zeile. des Text-map- Fel- 20 
des wird nach aufeinanderfolgenden leeren Eintragen (d. h. Eintragen, die nicht auf TXTX, TXVR, TXTH oder TXGR 
gesetzt sind) abgetastet. Wenn eine Folge eine Lange von wenigstens einer vorgegebenen Anzahl von Bytes hat, werden 
die horizontalen Wegbits in den entsprechenden Eintragen im Weg-map-Feld gesetzt Bei dem beschriebenen Ausfuh- 
rungsbeispiel ist die vorgegebene Anzahl von Bytes 6. Jeder horizontale Weg, der unter Verwendung dieser Methode ge- 
funden wird, wird sowohl um eine Spalte nach links von dem horizontalen Weg als auch um eine Spalte nach rechts von 25 
dem horizontalen Weg ausgedehnt. Dies stellt sicher, daB die horizontalen Wege an den Blockrandern in vertikale Wege 
selbst dann ubergehen, wenn sie aus Graphiken oder Kopfzeilen innerhalb von 32 Pixeln links oder rechts vom Rand des 
Blocks bestehen. 

Danach wird das Text-map-Feld abgetastet, um Vertikallinien aufzufinden (d. h. Eintrage, welche auf TXVR gesetzt 
sind), Block 604. Die entsprechenden Eingaben im Weg-map-Feld haben ein gesetztes Bit, das anzeigt, daB es eine ver- 30 
tikale Linie an dieser S telle in der Abbildung gibt. Dieses Bit wird bei einer spateren \ferarbeitung gepruft, bei der relativ 
enge Wege aus dem Weg-map-Feld eliminiert werden. 

Als nachstes werden vertikale Wege in dem Weg-map-Feld erzeugt, Block 605. Jede Zeile des Verukalpopulations- 
zahlfeldes wird nach aufeinanderfolgenden leeren Eintragen (entries) abgetastet. Wenn eine Folge wenigstens eine vor- 
gegebene Anzahl von Eintragen lang ist, wird sie als moglicher Vertikalweg angesehen. Bei dem beschriebenen Ausfuh- 35 
rungsbeispiel ist die vorgegebene Anzahl gleich 6. Wenn ein Ende eines Vertikalweges nicht mit einem Horizontalweg 
zusammenfallt, wird der Vertikalweg abgebrochen, bis er an beiden Enden mit einem Horizontalweg zusammenfallt. 
Vertikalwege erstrecken sich stets von einer Schnittstelle mit einem Horizontalweg zu einer Schnittstelle mit einem an- 
deren Horizontalweg. 

Die Weg-map wird danach gepruft, und alle Vertikalwege, die nur einen Eintrag breit sind, werden entfemt, sofera der 40 
Eintrag nicht angibt, daB der Vertikalweg wegen einer entsprechenden Vertikallinie im Bild bzw. in der Abbildung ge- 
setzt wurde. Die Weg-map wird dann wiederum abgetastet, und Abschnitte der horizontalen Wege werden geldscht, so- 
weit sie nicht in einem Vertikalweg beginnen und enden, Block 606. 

Eine Block-Lokalisierungsroutine, Block 217, benutzt zuvor durch den Seiten-Parsing-ProzeB gebildete Datenstruk- 
turen, beispielsweise das Text-map-Feld, und bildet zwei neue DatensLrukturen: ein BIock-map-Feld und eine Blockliste. 45 

Im folgenden wird auf Fig. 7 Bezug genommen. Das Block-map-Feld 701 enthalt ein Feld mit den gleichen Abmes- 
sungen, wie das Text-map-Feld Jede 1-Byte- Zeile im Block-map-Feld, beispielsweise die Zeile 702, enthalt eine Block- 
zahl fur diese Zeile. Zeilen, die noch nicht als Teil eines Blockes bezeichnet worden sind, werden bei dem beschriebenen 
Ausfuhrungsbeispiel mit einer 0 gekennzeichnet. Dabei kann es ein Maximum von 255 Blocken pro Seitenabbildung ge- 
ben. Die Blockzahl, beispielsweise die Blockzahl 1 an der Zeile 702, ist ein Hinweis in eine Blockliste 703. Jeder Eintrag 50 
in der Blockliste enthalt Informationen uber jeden Block, z. B. Koordinaten des Blocks, Spalte 705, Zeilen zahlinforma- 
tionen, Spalte 706, und Abstand zu anderen Blocken, Spalte 707. Die Koordinateninformationen 705 enthalten Informa- 
tionen uber die obersten, untersten, am weitesten links und am weitesten rechts gelegenen Pixel. Die Zellenzahlin forma- 
tion 706 enthalt Informationen uber die Anzahl von Textzellen, die Anzahl groBer Textzellen und die Anzahl graphischer 
Zeilen innerhalb der Grenzen des Blocks. 55 

GemaB Fig. 8, auf die jetzt Bezug genommen wird, enthalt der Vorgang des Lokalisierens von Blocken, d. h. der Vor- 
gang 217 aus Fig. 2, die Schritte einer Block-Aufnndungsroutine, wobei zunachst die Spalten der Weg-map abgetastet 
werden, Block 801. Die Block-AufTindungsroutine tastet jede Zeile der Weg-map nach Zeilen ab, welche weder von ho- 
rizontalen noch von vertikalen Wegen durchquert werden. Nach dem Auffinden einer Zeile, die weder von horizontalen 
noch von vertikalen Wegen durchquert wird, priift die B lock- Auffindungsrou tine die entsprechende Zeile im Block-map- 60 
Feld. Wenn die entsprechende Zeile im Block-map-Feld unbeselzt ist, d. h. der derzeitige Wert eine 0 ist, so ruft die 
Block-Auffindunsroutine eine Block-Zerlegungsroutine auf, Block 802. Die Block-Zerlegungsroutine priift das Weg- 
map-Feld der untcrsuchten Zeile zur Ermittlung vertikaier Wege auf den linken und rechten Seiten dieser Zellc. Die 
Block-Zerlegungsroutine tastet danach Zeilen des Weg-map-Feldes ab. Fur jede Zeile lokalisiert die Block-Zerlegungs- 
routine vertikale Wege auf der linken und rechten Seite jeder Zeile uber der laufenden Zeile. Wenn die Block-Zerle- 65 
gungsroutine eine Zeile lokalisiert, deren linker oder reenter Rand entsprechend dem \ferlauf der Vertikalwege von dem 
linken oder rechten Rand der laufenden Zeile um mehr als eine Zeile differiert, so erzeugt die Block-Zerlegungsroutine 
einen horizontalen Weg an dieser Zeile. Die Block-Zerlegungsroutine arbeitet sich in ahnlicher Weise in der Spalte der 
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laufenden Zelle abwarts, unterste Zeile des derzeitigen Blocks zu bestirmiw. Dieser Vorgang erzeugt einen etwa 

rechteckigen Block, der mit der weiter unten beschriebenen erfindungsgemaBen Methode weiter verarbeitet wird. 

Nachdem die Block-Zerlegungsroutine die tinken, rechten, oberen und unteren Rander eines etwa rechteckigen Zel- 
lenblocks bestimmt hat, schlieBt sich eine Block-Statistikroutine an, Block 803, die zum Markieren anderer als zu dem 
gleichen Block gehoriger Zellen verwendet wird. Die Block-Statistikroutine markiert jede Zelle im Block-map-Feld, die 
von den linken, rechten, obersten und untersten Wegen des aktuellen Blocks als zum aktuellen Block gehorig begrenzt 
sind. AuBerdem zahlt die Block-Statistikroutine die Anzahl von Text- und Graphikzellen im aktuellen Block durch Pru- 
fung des Text-map-Feldes. Die relative Anzahl von Textzellen gegenuber Graphikzellen dient zur Feststellung, ob der 
Block als Text- oder Graphikblock fiir die Weiterverarbeitung zu klassifizieren ist Die Block-Statistikroutine sammelt 
auBerdem Informationen liber die mittlere Lange von Folgen belegter Zellen im Text-map-Feld fiir jede Spalte im Block. 
Diese Information dient zur Feststellung der angenaherten Hone der Zeichen in den Textblocken. Die Block-Statistikrou- 
tine bildet auBerdem ein Histograms der Anzahl der Folgen von belegten Zellen in den Spalten des Text-map-Feldes. 
Der Medianwert in diesem Histogramm ist eine Naherung fur die Anzahl von Textzeilen in dem Block. Die Block-Sta- 
tistikroutine berechnet auch die extrem linken, rechten, obersten und untersten Koordinaten des Blocks. Wie oben gesagt, 
werden die oben angegebenen Koordinaten-, Zahlwert- und Statistikinformationen in der Blockliste gespeichert, Block 
703. 

Wie oben gesagt, laBt die hier verwendete Blockliste nur 255 Eintrage zu. Die Anzahl von Eintragen ist bei dem be- 
schriebenen Ausfuhrungsbeispiel beschrankt, um eine gewisse Verarbeitungseffizienz zu ermoglichen. Es ist jedoch fur 
den Fachmann klar, daB eine andere Anzahl yon Eintragen in der Blockliste benutzt werden kann, ohne vom Erfindungs- 
gedanken abzuweichen. Bei dem beschriebenen Ausfuhrungsbeispiel wird der ProzeB mit einer groBeren Vertikalweg- 
breite zur Bestimmung der Blockgrenzen wiederholt, wenn mehr als 255 Blocke unter Verwendung des zuvor beschrie- 
benen Prozesses ermittelt werden. Es ist auBerdem klar; daB die Erfindung eine andere Breite fiir die horizontalen und 
vertikalen Wege vorsehen konnte. 

Nach Beendigung der Verarbeitung eines ersten Blocks wird die Blcck-Aufnndungsroutine, Block 801, fortgesetzt, 
wenn weitere Zellen zur Verarbeitung ubrig bleiben, Zweig 804. Nach der Beendigung der Verarbeitung aller Zellen im 
Block-map-Feld, Zweig 806, ist der Vorgang der Blocklokalisierung beendet 

Danacb werden die Blocke gruppiert, Block 218. Die Blocke werden entsprechend ihrer Relativanordnung, ihrer In- 
halte (Graphik oder Text) und ihrer Textur bzw. Beschaffenheit (SchriftgroBe und Zeilenabstand) geordnet Die Block- 
gruppierungsinformation wird in einer Gruppenliste aufgezeichnet, Jedem Block in der Blockliste wird eine Gruppen- 
nummer zugeordneL Die Gruppennummer dient als Index fur die Gruppenliste. 

Fiir jeden Block in der Blockliste wird das Block-map-Feld uber, unter, links und rechts von dem Block abgetastet 
Blocke, die von unterschiedlicher Art oder Beschaffenheit bzw. Struktur sind, werden nicht zusarnmengruppiert. AuBer- 
dem werden solche Blocke nicht zusarnmengefaBt, die mehr als einen vorgegebenen Vertikalabstand oder mehr als einen 
vorgegebenen Horizontalabstand entfernt voneinander angeordnet sind. 

Im folgenden wird auf Fig. 9 Bezug genornmen, in der ein Beispiel fur die Blockgruppierung gezeigt ist. Beispiels- 
weise sind die Blocke 1, 6 und 11 als Gruppe I, 901, zusammengefaBt. In dem speziellen Beispiel konnen diese Blocke 
beispielsweise eine Uberschrift fur die Seite enthalten. Eine Uberschrift ist haufig durch hohere Schrifttypen als der Rest 
des Textes auf der Seite unterschieden. Wegen der unterschiedlichen SchriftgroBe werden diese Blocke zusarnmengrup- 
piert und nicht den restlichen Blocken auf der Seite zugeschlagen. 

Blocke 2, 3, 4 und 5 sind als Gruppe 2, 902, zusarnmengruppiert. Das erfindungsgemaBe Verfahren pruft Blocke, die 
einem aktuellen Block benachbart sind, um festzustellen, ob der Horizontalabstand H 903 groBer als sein vorgegebener 
Wert ist. Bei dem beschriebenen Beispiel ist dieser vorgegebene Wert 6 Zellenspalten. Da der Horizontalabstand H 903 
zwischen Block 2 und Block 7 groBer als der vorgegebene Horizontalabstandsgrenzwert ist, sind Blocke 7 und 8 nicht 
mit Gruppe 1 zusarnmengruppiert. 

Blocke 7 und 8 sind als Gruppe 3 zusammengefaBt, 904. Blocke 9 und 10 sind separat von den Blocken 7 und 8 grup- 
piert und als Gruppe 4, 906, bezeichnet, da der Vertikalabstand 905 zwischen Block 8 und Block 9 einen vorgegebenen 
Grenzwert ubersteigt. Bei dem beschriebenen Beispiel ist die vorgegebene Grenze fur den Vertikalabstand zwischen 
Blocken 12 Zellenzeilen. Blocke 12, 13, 14 und 15 sind als Gruppe 5,907, zusarnmengruppiert. Block 16 ist separat als 
Gruppe 6, 909 gruppiert. Block 1 6 ist nicht mit Blocken 12, 13, 14 und 15 gruppiert, da es einen Graphikblock 908 gibt. 

Die Erfindung ermoglicht auBerdem die Feststellung von Randem von Spalten auf einer Seite durch Priifen aufeinan- 
derfolgender Blocke in Seiten-Abwartsrichtung, wodurch festgestellt wird, ob der linke Rand jedes Blocks angenahert 
mit dem darunterliegenden Block ausgerichtet ist und ob der Block vertikal innerhalb eines vorgegebenen Abstands von 
dem Nachbarblock liegt. Wenn der Block nicht angenahert ausgerichtet mit dem darunterliegenden Block ist, oder der 
Block nicht den vorgegebenen Abstand von seinem Nachbam hat, wird angenommen, dafi die Blocke nicht in einer 
Spalte Uegen. 

Nachdem die Blocke gruppiert warden sind, wird das Block-map-Feld unter Verwendung der Gruppennummern an- 
statt der Blocknummern in jedem Element des Block-map-Feldes wieder aufgebaut. Dadurch reduzieren sich die nach- 
folgenden Verarbeitungserfordernisse. 

Nach der Beendigung der Blockgruppierung werden die Blocke fiir die Ausgabe an die Zeile n-Parsingrou linen, Block 
219, geordnet. Der Zweck der Anordnung der Gruppen fiir die Ausgabe besteht darin, daB Gruppen an die Zeilen-Par- 
singroutinen in der logischen Ordnung ausgegeben werden, in der sie auch gelesen wiirden. Im folgenden wird auf Fig. 
10(a) Bezug genornmen, in der ein Blockdiagramm mit dem Seitenbild bzw. der Seitenabbildung, bestehend aus 7 Text- 
blocken, gezeigt ist. Die Seitenabbildung enthalt eine Kopf- oder Uberschriftzone 1001 und 3 logische Textspalten. 

Als erster Schritt bei der Anordnung von Gruppen fur die Ausgabe werden die vertikal benachbarten Blockgruppen lo- 
kalisiert. Unter Verwendung der die Lokalisierung von vertikal benachbarten Blocken betreffenden Informationen wird 
ein Baum konstruiert, der die Blocke verknupft. Jeder Verzweigungspunkt im Baum stellt einen Text- oder Graphikblock 
dar und enthalt Hinweise auf bis zu 8 Blocke uber ihm. Wenn mehr als ein Block uber dem aktuellen Block ist, sind die 
Hinweise so angeordnet, daB Blocke von links nach rechts geordnet werden. Die Wurzcl des Baums ist am Seitenende. 
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Jedem Block ist ein Verzweigur^^kt auf der Basis einer links-nach-rechts-Baurfl^Jfchqueningsreihenfolge zuge- 
ordnet. Verzweigungspunkt 0 ist die WurzeL 

Wie in Fig. 10(a) dargestellt ist, bildet der Knoten 1 1011 eine erste Vertikaigruppe 1002. Knoten 2 1001, Knoten 
3 1013, Knoten 4 1014 und Knoten 5 1015 konnen eine zweite Vertikaigruppe 1003 bilden, die im wesentlichen der er- 
sten Vertikaigruppe benachbart ist. Knoten 6 1016 und Knoten 0 1010 konnen eine dritte Vertikaigruppe 1004 bilden, die 5 
der zweiten Vertikaigruppe im wesentlichen benachbart ist. 

Um die Ausgabereihenfolge der Blocke zu bestimmen, wird der Baurn von links nach rechts durchlaufen, und jedem 
Zweig des Baums wird bis zu dessen Ende gefolgt, wobei jeder Nebenast von links nach rechts verfolgt wird. Generell 
wird ein Knoten am Ende eines Zweiges zuerst ausgegeben, und Knoten von jedem Zweig eines Unterbaums werden 
ausgegeben, bevor der Wurzelknoten fur diesen Unterbaum ausgegeben wird. 10 

So wird unter Bezugnahme auf Fig. 10(a) die normale Ausgabefolge fur die Blocke 0 bis 6 dadurch bestimmt, daB der 
Baum vom Block 0 (der Wurzel), 1010, aus zum ersten Knoten auf der linken Seite, Block 5, 1015, durchschritten wird. 
Vom Block 5 1015 abzweigende Knoten werden danach von links nach rechts durchschritten. Daher ist Block 1 101 1 der 
nachstgeprufte Knoten. Da keine Blocke vom Block 11011 abzweigen, ist dieser Block als der erste Block bezeichnet, 
der vom Baum abgetrennt und zu den Zeilen-Parsingroutinen geschickt werden soil. Der nachste vom Block 5 1015 ab- 15 
zweigende Knoten ist Block 4 1014. Daher wird Block 4 1014 als nachster verarbeitet. Block 4 1014 hat Zweige. Daher 
wird er durchschritten und als nachstes wird Block 2 1001 gepriift, da er vom Block 3 1013 abzweigt Wenn es keine an- 
deren Blocke gibt, die vom Block 2 1001 abzweigen, ist Block 2 1001 die nachste Block-Ausgabe an die Zeilen-Parsing- 
routinen. Block 3 1013, der keine Zweige hat, ist der nachste, an die Zeilen-Parsingroutinen auszugebende Block, gefolgt 
vom Block 4, 1014. Da es keine weiteren Blocke gibt, die vom Block 5 1015 abzweigen, ist dieser Block die nachste 20 
Blockausgabe an die Zeilen-Parsingroutinen. Der Wurzelknoten 1010 wird weiterhin von links nach rechts durchlaufen, 
und Block 6 1016 wird verarbeitet. Da auch hier keine Blocke vom Block 6 1016 abzweigen, ist letzterer der nachste 
Block, der zu den Zeilen-Parsingroutinen geschickt wird. SchlieBlich gibt es keine weiteren von dem Wurzelknoten 1010 
abzweigenden Blocke, und der Wurzelknoten wird zu den Zeilen-Parsingroutinen ubertragen. 

Bei der Blockverarbeitung werden die als Graphikblocke bezeichneten Blocke zwar in den oben beschriebenen Durch- 25 
lauf- und SortierprozeB eingebunden, jedoch nicht zu den Zeilen-Parsingroutinen ubertragen. 

Bei Verwendung des oben beschriebenen Verfahrens zur Blockausgabe an den Zeilen-Parser sind gewisse Seitenlay- 
outs besonders fehleranfallig. So konnen beispielsweise in dem Seitenlayout gemaB Fig. 10(a) die Blocke 2 und 3 Kop- 
fetiketten sein. In einem solchen Fall wtirde die logische Lesefolge der Seite von den aus dem oben beschriebenen ProzeB 
gewonnenen Resultaten abweichen. Daher wird die Ausgabereihenfolge von Blocken bei dem beschriebenen Ausfuh- 30 
rungsbeispiel der Erfindung durch eine rekursiv aufrufende Routine umgeordnet. Die Routine wird fur jeden Knoten mit 
mehr als einem Aufwartszweig aufgerufen. Bei dem Beispiel gemaB Fig. 10(a) wiirde beispielsweise die Routine aufge- 
rufen, wenn Block 5 1015 und der Wurzelblock 1010 verarbeitet werden. 

Die Rekursivroutine findet den oberen Block jedes Zweiges. Beginnend mit dem am weitesten links gelegenen Zweig 
priift die Routine die Knoten an dem nachsten Zweig rechts. Wenn das obere Ende eines Knotens des rechts gelegenen 35 
Zweiges auf der Seitenabbildung hoher als die obere Zeile eines Knotens des linken Zweiges ist (entweder uberlappt der 
rechte Knoten den linken Knoten, oder das untere Ende des rechten Knotens liegt oberhalb des oberen Endes des linken 
Knotens), so wird der Unterbaum in dem rechten Zweig auf den linken Zweig verpflanzt. Dieser \fcrgang wird fur jeden 
Knoten wiederholt, der die o. g. Kriterien erfullt. 

So liegen beispielsweise sowohl Knoten 2 1001 als auch Knoten 3 1013 uber dem Knoten 1 1011, so daB Knoten 40 
3 1013 ftir die Zwecke der Ausgabe an die Block-Parsingroutinen auf Knoten 1 1011 umgepflanzt wird. Der nach der 
Bearbeitung durch diese Rekursivroutine gewonnene Baum ist in Fig. 10(b) gezeigt. In Fig. 10(b) wurden die Blocknum- 
mern neu zugeordnet, und zwar in einer links nach rechts-Baum-Durchlaufreihenfolge. Die neuen Blocknummern zeigen 
die Reihenfolge der Ausgabe an die Seiten-Parsingroutinen. Die Blocke werden an die Seiten-Parsingroutinen ausgege- 
ben, beginnend mit Block 1 1001, danach Block 2 1013, Block 3 1011, Block 4 1014, Block 5 1015, Block 6 1016 und 45 
schlieBlich der Wurzelknoten, Block 0 2020. Die logische Verkntipfung zwischen den Blocken wurde am Zweig 1020 
geandert. 

Eine Anzahl abschlieBender Einstellungen werden als Teil des Seiten-Parsing-Prozesses durchgefuhrt. Diese Einstel- 
lungen umfassen Prozesse zum weiteren Verschmelzen benachbarter Blocke, nachdem die Block- Ausgabereihenfolge 
bekannt ist, VergroBern von Blocken bis hinein in den den Block umgebendenen weiBen Raum, Konstruieren eines Mo- 50 
dells der Seitenabbildung, das die Lage und Reihenfolge der Textblocke zeigt, neues Schragstellen der Block-map- und 
der Wege-map-Felder zur Umkehr der Verzerrungskorrektur des friiheren Prozesses und den Aufbau eines Blockdeskrip- 
torfeldes mit beschreibenden Informationen uber jeden Block. 

Wesentlich ist, daB das Modell der Seitenabbildung mit der Platzierung und Reihenfolge der Textblocke auf einem Ge- 
rat, beispielsweise an einem Graphikterminal von dem Benutzer sichtbar gernacht werden kann. Der Benutzer kann dann 55 
die Ausgabereihenfolge der Blocke wahlweise andern. Dieses Verfahren ermoglicht dem Benutzer die Korrektur der 
Ausgabereihenfolge der Blocke, soweit die Seiten-Parsingroutinen unrichtige Annahmen beziiglichen der logischen Le- 
sefolge der Seite gernacht haben. 

BLOC K-PARS TNG 60 

Jeder von der Sei ten- Parsing routine erzeugte Block wird an die Block-Parsing routine in der gcwunschten Reihenfolge 
weitergeleiteL Die Block- Parsing routine versucht, jeden Block in einzclne Tcxtzeilen zu zerlegen. Die Block-Parsing- 
routinen verwenden von den Seiten-Parsingroutinen und dem Bit-mapped Bild des Eingangsblocks aufgebaute Daten- 
sirukturen zum Isolieren einzelner Zeilen und zum Hinzufugen von Daten zu der Blc>ck-Beschreibungsin formation in der 65 
Blockliste. Die zur Blockliste hinzugefugten Daten enthalten Informationen, welche die auSerst linke Spalte im Block,, 
die Breite des Blocks, die Hone des Blocks, die Anzahl von Zeilen im Block und die Startzeilennummer identifizieren. 

Nach Empfang eines Eingangsblocks berechnet die Block-Parsingroutine den Schragfehler des Blocks, Block 221 der 
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Fig. 2(c). Der Schragfehl^^R Blocks wird auf der Basis einer detailiierten iSB^e der Phasenanderungszahlungen in 
dem Horizon talphasenanderungsfeld berechnet. Als nachstes werden einzelne Zeilen isoliert, Block 222, und zwar durch 
Priifen des Bit-mapped-Bildes fiirden Block in Verbindung mit der Phasenanderungszahlungsanalyse, urn die Lage des 
moglicherweise schraggestellten horizon talen weiBen Raums zu bestimmen, der die Zeilen voneinander trennt. 
5 Der Block- Parsing-ProzeB trennt und zerschneidet die Zeilen, Block 223, durch Lokalisierung von Horizontalwegen 
des geringsten Widerstandes, die der berechneten Schraglage am nachsten kommen. Der im wesentlichen horizontale 
Wege, der Textzeilen trennt, kann von Buchstaben unterbrochen sein, die Unter- oder Oberlangen haben. Beispielsweise * 
haben die Kleinbuchstaben "g", "j", "p M , M q" und "y" alle Unterlangen. Die Block-Parsingroutine schneidet urn solche 
Buchstaben herum, um sicherzustellen, daB die Unterlangen derartiger Buchstaben in der richtigen Zeile zuriickbleiben, 

10 wenn die Zeile an die Zeilen-Parsingroutinen weitergegeben wir<± 

Immer wenn die BLock-Parsingroutine nicht in der Lage ist, ein Hindernis innerhalb gegebener Toleranzen zu vermei- 
den oder zu umfahren, miBt die Block-Parsingroutine die Abmessungen des Hindernisses, um festzustellen, ob das Hin- 
dernis eiae Vertikallinie ist. Wenn das Hindernis eine Vertikallinie ist, wird es geioscht. Wenn das Hindernis keine \fer- 
tikallinie ist, durchschneiden die Block-Parsingroutinen das Hindernis. Einzelzeilen werden getrennt und fur die Weiter- 

15 verarbeitung durch die Zeilen-Parsingroutinen gepuffert, Block 224. 



ZEILEN-PARSING 



Jede Zeilenausgabe aus den Block-Parsingroutinen dient als Eingabe fiir die Zeilen-Parsingroutinen. Die Zeilen-Par- 
20 singroutinen suchen eine Textzeile in Einzelbuchstaben zu zerlegen. Bezugnehmend auf Fig* 2(d) finden die Zeilen-Par- 
singroutinen bei dem beschriebenen Ausfiihrungsbeispiel zunachst alle Spalten, die einen weiBen Raum von der Ober- 
seite der Zeile zur Unterseite der Zeile haben, Block 231. 

Die Spalten oder Segmente, die einen weiBen Raum von der Zeilenoberseite zur Zeilenunterseite haben, werden da- 
nach getrennt und gerahmt, Block 232. Um Segmente zu rahmen, bestimmt der Zeilen-Parsing-ProzeB die linken, rech- 
25 ten, oberen und unteren Grenzen der durch vertikalen weiBen Raum begrenzten Pixelzonen. Die Grenzen werden derart 
berechnet, daB so wenig Leerraum wie moglich um die Pixelzone verbleibt. 

Wenn die resultierende "gerahmte" Pixelzone groBer als 64 Pixel (die groBte Zeichenbreite, die bei dem beschriebenen 
Ausfiihrungsbeispiel ohne Reduktion der Auflosung des Zeichens verarbeitet werden kann), oder wenn das \erhaltnis 
der Breite zur Hone des gerahmten Pixelbereichs groBer als 3 : 2 ist, wird angenommen, daB die gerahmte Pixelzone 
30 mehr als einen Buchstaben enthalt. 

In einem solchen Falle kann die gerahmte Pixelzone mit Uberhangen versehene, gotische Zeichen enthalten. Derartige 
Zeichen uberlappen einander, obwohl sie sich tatsachlich nicht bertihren. In einem solchen Falle kann es vorkommen, 
daB ein vertikaler Freiraum zwischen den Zeichen nicht existiert, Ein Beispiel kann der Buchstabe "T" gefolgt von "o" 
sein. Wenn ein "T" entsprechend eng an ein "o" gestellt wird, so verschwindet ein vertikaler Freiraum zwischen diesen 
35 beiden Buchstaben. 

Ein AuflosungsprozeB wird bei solchen relativ breiten Pixelrahmenzonen angewandt. Der AuflosungsprozeB berech- 
net den am weitesten links gelegenen freien Weg von der Zeilenober- zur -unterseite. Ein freier Weg wird als Liste von 
verbundenen vertikalen und horizon talen Segmenten definiert, welche einen freien Weg zwischen zwei Buchstaben ver- 
folgen. Wenn der AuflosungsprozeB durch Auffinden eines freien Weges erfolgreich ist, werden die linken, rechten, obe- 
40 ren und unteren Grenzen fur die Pixelrahmenzone links des freien Weges neu berechnet Wenn der resultierende Rahmen 
immer noch breiter als 64 Pixel ist oder ein Breiten- zu Hohenverhaltnis von mehr als 3 : 2 hat, oder wenn kein freier 
Weg gefunden wurde, wird der 'Versuch unternommen, eine Unterstreichung festzustellen und zu entferaen. Wenn dieser 
Vorgang erfolgreich ist, wird mit Hilfe des Zeilen-Parsing-Prozesses erneut versucht, den vertikalen weiBen Raum zu fin- 
den. 

45 Nach dem Auffinden eines Pixelrahmens, der nicht zu breit ist, wird dieses Rahmenfeld als isoliertes Zeichen angese- 
hen, Block 232, und es wird ein Zeichenfenster fiir die Zeichen-Erkennungsroutinen geschaffen, Block 233. Bei dem be- 
schriebenen Ausfiihrungsbeispiel der Erfindung ist ein Zeichenfenster ein Pufferbereich, der bis zu 128 Zeilen mal 128 
Spalten oder 64 Zeilen mal 192 Spalten enthalten kann. Wenn der Pixelrahmen zu groB ist, um in das Zeichenfenster zu 
passen, wird er so skaliert, daB er in das Fenster paBt. Der Pixelrahmen wird zeilen weise in das Fenster kopiert Wenn die 

50 gerahmte Pixelzone als Ergebnis eines Auflosungsprozesses abgeleitet wurde, ist die rechte Grenze der Pixelzone als 
freier Weg beim AuflosungsprozeB definiert. Anderenfalls besteht jede in das Fenster kopierte Zeile aus Bits in entspre- 
chenden Zeilen der Pixelrahmenzone zwischen vertikalen weiBen Raurnen (d. h. den als isoliert angenommenen Zei- 
chen). 

Ein errichtetes Fenster, das eine Spaltenbreite von mehr als 128 Pixeln hat, wird in einen Zuriickweisungscache fur 
55 spatere Weiterbearbeitung gelegt. Anderenfalls werden die Zeichen-Erkennungsroutinen aufgerufen, und das Fenster 
wird in diese Zeichen-Erkennungsroutinen eingegeben, Block 234. Wenn ein Zeichen von den Zeichen-Erkennungsrou- 
tinen erfolgreich verarbeitet wurde, wird ein Code fur seine ermitlelte Form in eine als "Fahne" bezeichnete Pufferzone 
gegeben. Fenster, die von alien Zeichen-Erkennungsroutinen zuriickgewiesen wurden, werden zum Zuriickweisungsca- 
che fur spatere Verarbeitung hinzugefiigt. 

60 

ZEICTlEr^RXENNUNG 

Lin folgenden wird auf Fig. 1 1 Bezug genommen. Danach enthalt der Zeichen-ErkennungsprozeB die Schritte der 
Schablonenanpassung, Block 1101, gefolgt von der Merkmalsanalyse, Block 1105, wenn das Zeichen in dem Schablo- 
65 nenanpassungschritt, Block 1101, nicht erkannt worden ist. 

Der Schablonenanpassungsvorgang, Block 1101, versucht in Fenstern aus dem Zeilen-Parsing-ProzeB weitergeleitete 
Zeichen mit Schablonen von zuvor bereits identifizierten Zeichen in Ubereinstimmung zu bringen. Im Merkmalsanaly- 
seprozeB, Block 1105, wird versucht, Merkmate der durch Schablonenvergleich nicht idcntifizierbaren Zeichen zu erken- 
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nen. Auf der Basis des Erkennen^^^her Merkmale werden die Zeichenformen iden^^Prt. 

Ein Gesichtspunkt der vorliegenden Erfindung besteht darin, daB mil Hilfe des Merkmalsanalysevorgangs erkannte 
Zeichen als Schabionen zur Erkennung spater auftretender Zeichen verwendet werden. Bei dern beschriebenen Ausfub- 
ruogsbeispiel wird ein Schablonen-Cachespeicher fur jedes neue Dokument aufgebaut. Der Schablonen-Cachespeicher 
enthalt Zeichen, die innerhalb des Merkmalsanalyseprozesses ftir das aktuelle Dokument erkannt worden sind. Zeichen 5 
in dem Schablonen-Cache werden im Schablonen-AnpaBprozeB benutzt. Durch Errichtung des Schablonen-Cache auf 
der Basis von bereits irn Dokument erkannten Zeichen mit Hilfe des Merkmalserkennungsprozesses macht es die Erfin- 
dung mdglich, jede durch Merkmalsanalysenroutinen erkennbare Schriftart selbsttatig zu erkennen. Durch Kombinieren 
von Hementen der Merkmalsanalyse und der Schablonenanpassung bietet die Erfindung die betrieblichen Vbrteile eines 
SchablonenanpaBsystems mit der Allschriftcharakteristik eines Merkmalsanalysesystems. LO 

SCHABLONENANPASSUNG 



Der Schablonen-Cache enthalt Informationen uber jede verfugbare Schablone des aktuellen Dokuments. Fiir jede 
Schablone enthalt ein Kopffeld Identifizierungsinformationen fur diese spezielle Schablone. Das Kopffeld enthalt auch 15 
OfFset-Zeiger bzw. Hinweise auf drei Pixelmuster, die von dem SchablonenanpaBprozeB verwendet werden. 

Das erste Pixelmuster ist das Originalmuster des Zeichens, wie es durch den MerkmalsanalyseprozeB erkannt worden 
ist. Bei dem beschriebenen Ausfuhrungsbeispiel wird das Originalmuster von x Zeilen mal y Spalten als zweidimensio- 
nale Matrix gespeichert, wobei die Zeilen Null-unterlegt bis zu einer Wortgrenze sind. 

Ein zweites Pixelmuster, bezeichnet als "muB-aus-sein"-Muster, wird aus dem Originalmuster abgeleitet. Das muB- 20 
aus-sein-Muster enthalt x + 1 Zeilen und y + 1 Spalten, wobei die Zeilen ebenfalls bis zu einer Wortgrenze mit Nuilen 
aufgefiillt sind. 

Ein drittes Pixelmuster, genannt "rnuB-ein-sein "-Muster, wird aus dem Originalmuster abgeleitet und enthalt x - 1 Zei- 
len mal y + 1 Spalten. Das tatsachliche Bild des muB-ein-sein-Musters besetzt nur x - 2 Zeilen mal y - 2 Spalten. Bei dem 
beschriebenen Ausfuhrungsbeispiel ist jedoch ein Bereich von x - 1 Zeilen mal y + 1 Spalten aus \ferarbeitungsgriinden 25 
reserviert, um sicherzustellen, daB die Matrix ebenso breit wie die muB-aus-sein-Matrix ist. 

Wie sich aus der folgenden Beschreibung der SchablonenanpaBmethoden, wie sie bei der Erfindung Verwendung fin- 
den, ergibt, werden Zeichen von dem Schablonen-AnpaBprozeB erkannt, wenn die Zeichen innerhalb gewisser vorgege- 
bener Toleranzen der Schabionen liegen. Das Zulassen von Zeichen innerhalb vorgegebener Toleranzen ist wichtig, da 
zwei Bit-mapped-Bilder desselben Zeichens selten - wenn uberhaupt - exakt iibereinstimmen. Eine Bilddigitalisierung 30 
ist empfindlich gegenuber Unterschieden in der Ausrichtung, und der DigitalisiemngsprozeB selbst fiihrt ein Randrau- 
schen ein. AuBerdem werden Zeichen oft unterbrochen oder sind auf andere Weise deformiert aufgrund der schlechten 
Bildqualitat, wenn die Zeichen urspriinghch gedruckt wurden, wenn das abgetastete Substrat kopiert wurde oder wenn 
das Substrat fur den ZeichenerkennungsprozeB optisch abgetastet wird. Daher ist ein einfacher Bit-fiir-Bit-Vergleich bei 
einem ErkennungsprozeB nicht angemessen. Die rnuB-ein-sein- und muB-aus-sein-Bildmuster werden bei der Erfindung 35 
verwendet, um eine gewisse DifTerenzgrenze zwischen den Zeichen zu errnoglichen. 

Die muB-aus-sein-Matrix enthalt ein Pixelbild, welches anzeigt, welche Pixel im Fenster aus (d. h. auf Null gesetzt) 
sein miissen, um das Fenster mit der Schablone in Ubereinstimmung zu bringen. Es sei auf Fig, 12(a) Bezug genommen, 
in der ein Bit-mapped-Bild des Buchstabens e (1201) dargestellt ist. Die x's im Buchstaben e bezeichnen Pixel, welche 
im Originalbild im Schablonen-Cachespeicher eingeschaltet sind. 40 

Bei dem beschriebenen Beispiel zeigt das muB-aus-sein-Bild Pixel an, welche um ein oder mehr Pixel von einem Ein- 
Pixel des original Bit-mapped-Bildes beabstandet sind. Fig. 12(b) zeigt den Buchstaben e (1202), bei dem die muB-aus- 
sein-Pixel als Striche dargestellt sind. Bei dem beschriebenen Ausfuhrungsbeispiel werden die muB-aus-sein-Pixel durch 
" Verwischen" des Originalpixelbildes berechnet. Das \ferwischen wird mit Hilfe logischer ODER-Verknupfungen in je- 
der Zeile des Originalpixelbildes vorgenommen. Jede Zeile des Originalpixelbildes wird einer logischen ODER-\fer- 45 
kniipfung mit einer Kopie von sich selbst unterworfen, die um ein Bit nach links verschoben wurde. Das Ergebnis ist lo- 
gisch ODER-verkniipft mit der urspriinglichen Zeile, verschoben nach rechts um ein Bit. Das Resultat dieses Schrittes 
wird mit dem Resultat des gleichen Verfahrens an der unmittelbar vorhergehenden Zeile oder dariiber logisch ODER- 
verkniipft. Das Resultat dieses Schritts wird logisch ODER-verkniipft mit der ahnlich verarbeiteten Zeile unmittelbar vor 
oder unterhalb der aktuellen Zeile. Das Ergebnis dieser Operation ist ein Bild des urspriinglichen Zeichens, bei dem jedes 50 
Pixel des urspriinglichen Bit-mapped-Bildes von 8 Ein-Pixeln umgeben ist, von dem Pixel oberhalb, unterhalb, rechts, 
links und den 4 Pixeln, die um 45°, 135°, 225° und 315° vora urspriinglichen Pixel verdreht sind. Dadurch wird das ur- 
spriingliche Zeichenbild mit einer Ein-Pixel-Schicht quasi umgiirtet. Das Komplement des sich ergebenden Bildes wird 
als muB-aus-sein-Muster erhalten. 

Das muB-ein-sein-Bild ist eine Zeichenabbildung mit Bits, die getastet sein miissen fur eine Ubereinstimmung. In Fig. 55 
12(b) ist die Zeichenabbildung des Zeichens e 1202 mit Pluszeichcn dargestellt, die bei einer Ubereinstimmung eine 1 
bedeutende Pixel zeigen. Zurn Berechnen eines muB-ein-sein-Bildes wird jede Zeile des originalen Pixelbildes logisch 
UND-verkniipft mit einer um ein Bit nach links verschobenen Kopie der Zeile. Das Ergebnis wird mit einer Kopie der 
um ein Bit nach rechts verschobenen Zeile logisch UND-verknupft. Deren Ergebnis wird logisch UND-verkniipft mit ei- 
nem ahnlich behandelten Bild der Zeile unmittelbar iiber der aktuellen Zeile. Das Ergebnis der Operation wird dann lo- 60 
gisch. UND-verkniipft mit der ahnlich verarbeiteten Zeile unmittelbar unterhalb der aktuellen Zeile. Diese logische 
UND-Operation mit Zeilen oberhalb und unterhalb der aktuellen Zeile findet statt, nachdem die oberhalb und unterhalb 
der aktuellen Zeile gelegenen Zeilen zuvor wie in den erslen zwei Schritten dieses Verfahrens beschrieben mit ihren ei- 
genen Bildern logisch UND-verkniipft worden sind. Durch dieses Verfahren wird eine Abbildung des Originalzeichens 
erzeugt, bei dern nur diejenigen Pixel eingeschaltet bleiben, die auf alien ihren acht Seiten umgeben sind. Dadurch ent- 65 
steht im Ergebnis ein Bild, das um eine Pixetschicht dunner als das Originalbild ist. 

Die Verwendung der rnuB-ein-sein- und muB -aus-sein- Matrix zum Vergleich der Eingangszeichen mit Schabionen er- 
nidglicht Toleranzen bei der Durchfuhrung der Anpassung. Obwohl das beschriebene Ausfuhrungsbeispiel eine Ein-Pi- 
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xel-Toleranz beim Prufet^^^Jbereinstimmungen zulaBt, ist es fur den FachrrMKlar, daB andere Ausfuhrungen zu an- 
deren Toieranzen fiihren. Ein alternatives Ausfiihrungsbeispiel, das weniger enge Toleranzen ermoglicht, kann zu hohe- 
ren AnpaBgeschwindigkeken und daher zu entsprechend rascherer Verarbeitung fuhren. Ein solches Ausfuhrungsbei- 
spiel erhoht jedoch die Fehlerrate der Identifizierung von Zeichen aufgrund der weniger strengen Toleranzanforderun- 
5 gen. 

Im folgenden wird auf Fig. 11(b) Bezug genommen. Bei jedem Empfang eines neuen Fensters mit nicht-identifizierter 
Pixelinformation aus der Zeilen-Parsingroutine werden muB-ein-sein- und muB-aus-sein-Bilder fiir das nicht-identifi- 
zierte BiLd unter Verwendung des oben beschriebenen Verfahrens erzeugt, Block 1120. Das nicht-identifizierte Bild im 
Fenster wird dann mit den Zeichen im Schablonencache verglichen. Die Schablonen werden zu Vergleichszwecken in ei- 

10 ner zuletzt angepaBten Reihenfolge geordnet. Bei jeder Ubereinstimmung mit einer Schablone wird ein im Schablonen- 
Kopfetikett gespeicherter Zahlwert inkrementiert. 

Wenn eine Schablone als Ergebnis der Erkennung durch die Merkmalsanalysenroutinen das erste Mai hergestellt wird, 
wird der Scbablonenubereinstimmungszahler auf 0 gesetzt Bei dem beschriebenen Beispiel werden neue Schablonen 
(d. h. Schablonen mit einem Ubereinstimmungszahlwert von 0) bei Beginn der Schablonenschlange eingesetzt. Wenn 

15 ein nicht-identifiziertes Bild von den Schablonen-AnpaBroutinen verarbeitet wird und mit einer besonderen Schablone 
ubereinstimmt, wird der zur besonderen Schablone gehorige Ubereinstirnmungszahler gepruft, um festzustellen, ob der 
Anpassungszahlwert 0 ist. Wenn der Zahlwert 0 ist, priift das beschriebene Ausfuhrungsbeispiel der Erfindung das Bild 
im Zeichenfenster unter Verwendung der Merkmalsanalysenroutinen (weiter unten beschrieben), um eine Bestatigung 
dafur zu erhalten, daB das Bild im Zeichenfenster das gleiche Zeichen wie das von der Schablone identifizierte Zeichen 

20 ist Wenn die Merkmalsanalysenroutinen die Schablone bestatigen und das Bild im Zeichenfenster das gleiche Zeichen 
ist, wird der AnpaBzahlwert inkrementiert Anderenfalls wird im Verfahren unterstellt, daB die Schablone zu unzuverlas- 
sigen Ergebnissen fuhrt, und die Schablone wird aus der weiteren Verarbeitung ehminiert. Die Erkennung des Bildes im 
Zeichenfenster wird dann dadurch fortgesetzt, daB man das Bild im Zeichenfenster mit anderen Schablonen im Schablo- 
nencache in Uberemstimmung zu bringen suchL 

25 Der erste Schritt beim Anpassen eines Bildes in einem Fenster mit der Schablone besteht darin, daB man muB-ein-sein- 
und muB-aus -sein-Matntzen von dem nicht-identifizierten Bild konstruiert, Block 1120. Als nachstes wird eine Dimen- 
sionspriifung durchgefuhrt, Block 1121. Bilder, die sich von einer Schablone bezuglich ihrer Hone oder Breite um mehr 
als ein Pixel unterscheiden, konnen zu der Schablone nicht passen, Zweig 1122. Wenn die Dimensionspriifung durchlau- 
fen ist, Zweig 1123, wird die muB-ein-sein-Matrix fur das nicht-identifizierte Bild im Fenster mit dem original Bit-map- 

30 ped-Bild der Schablone verglichen. Wenn alle Pixel in der muB-ein-sein-Matrix fur das nicht-identifizierte Bild in der 
Originalschablone ein-getastet sind, Zweig 1124, wird ein zweiter Test durchgefuhrt. 

Der zweite Test bestimmt, ob alle Pixel in der muB-ein-sein-Matrix fur die Schablone in dem nicht-identifizierten Bit- 
mapped-Bild im Fenster eingeschaltet sind. Wenn alle derartigen Bits eingeschaltet sind, Zweig 1125, wird das Original 
Bit-mapped-Bild der Schablone mit der muB-aus-sein-Matrix fur das Bild im Fenster verglichen. Alle in der muB-aus- 

35 sein-Matrix fiir das Bild im Fenster angegebenen Pixel mussen in der urspriinglichen Schablone als \foraussetzung einer 
Anpassung oder Ubereinstimmung ausgeschaltet sein. Wenn dieser Test durchgefuhrt ist, Zweig 1126, wird das Bit-map- 
ped-Bild im Fenster mit der muB-aus-sein-Matrix fiir die Schablone verglichen. Wenn alle von der muB-aus-sein-Matrix 
der Schablone angezeigten Pixel im Bit-mapped-Bild des Fensters ausgeschaltet sind, wird die Schablone als uberein- 
stimmend oder angepaBt bewertet und der Zweig 1127 eingeschlagen. 

40 Wie oben beschrieben, wird das Bild im Zeichenfenster auch mit den Merkmalsanalyseroutinen zur Bestatigung der 
Identifizierung analysiert, wenn die Schablone eine Ubereinstimmungszahlung von 0 hat. Anderenfalls wird der Identi- 
fizierungscode fur die erkannte Form in die Fahne fiir eine spatere Verarbeitung durch die Kontext-Analysenroutinen ein- 
gegeben. 

Wenn einer der Zweige 1122, 1128, 1129, 1130 oder 1131 eingeschlagen wird, weil der entsprechende oben beschrie- 
45 bene Test nicht passiert wurde, und wenn mehrere Schablonen im Schablonenspeicher vorhanden sind, Zweig 1132, wird 
die gleiche Folge von Prufungen oder Tests mit jeder nachfolgenden Schablone im Schablonencache solange wiederholt, 
bis eine Anpassung oder Ubereinstimmung auftritt oder der Cache erschopft ist. 

Wenn es keine weiteren Schablonen im Schablonencache gibt, Zweig 1133, gibt es keine Ubereinstimmung zwischen 
den aktuellen Schablonen und dem nicht-identifizierten Bild. Dies ist immer dann der Fall, wenn sich das nicht-identifi- 
50 zierte Bild nach Schriftart, GroBe oder Ausrichtung von alien im Schablonen-Cachespeicher enthaltenen Zeichen unter- 
scheidet. Die fehlende Ubereinstimmungsbedingung kann auch das Ergebnis von Zeichen sein, die trotz gleicher Schrift- 
art und -groBe nicht eng genug ubereinstimrnen, um innerhalb der "Randrausch"toleranzen der Schablonenanpassungs- 
routinen zu liegen. 

In jedem Falle werden die Merkmalsanalyseroutinen herangezogen, die das Bild im Fenster als Eingabe benutzen, 
55 Block 1105, wenn das Bild zuvor nicht erkannt werden konnte, Zweig 1104 in Fig. 1 1(a). 

, MERKMALS ANALYSE 

Bei dem beschriebenen Ausfuhrungsbeispiel wird eine Vielzahl von Routincn zum Analysieren der Merkmale der den 
60 MerkmalsanalyseprozeB durchlaufenden Bilder verwendet, wobei die Kategorie der Form eines nicht-identifizierten Bil- 
des im Zeichenfenster bestimmt wird. Unter den verschiedenen Routinen ist eine Routine fur jede besondere Spezies im 
nonnalen Zeichensatz. Jede dieser einzelnen Routinen kann ein Bild in einem Zeichenfenster analysieren und als Aus- 
gabe eine Anzeige dafur zur Verfugung stellen, ob das Bild zu der allgcmeinen Formkategorie zahtt, die durch diese Rou- 
tine zu unterscheiden ist. Die Zeichenerkennungsroutinen werden aktiviert, wenn eine der Routinen nut einer positiven 
65 Anzeige dafur antwortet, daB das Bild im Zeichenfenster die der speziellen Routine entsprechende Form hat. Wenn keine 
der Merkmalsanalysenrouunen positiv antworten, bleibt die Form des Bildes im Zeichenfenster unidentifiziert. In einem 
solchen Falle wird eine Weiterverarbeitung durchgefuhrt, um die Fonn des Bildes im Zeichenfenster zu idenlifizieren. 
Jede der Routinen wird als "isit° bezeichnet, Der Name "isit" ist fiir die Beschreibung der Routinen des Ausfuhrungs- 
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beispiels zweckmaBig, da die Rd^^M bestimmen, ob ein Zeichen im Zeichenfenster^HPezielles Zeichen ist (z. B. "ist 
es" (isit) ein a). Bei dem beschriebenen Ausfuhrungsbeispiel existieren isits fiir Buchstaben, Zahlen und spezielle Sym- 
bole, wie Kommas, Anfuhrungsstriche, Semikolons usw.. Es ist fur den Fachmann klar, daB das Verfahren der Verwen- 
dung von isits zur Bestimmung der Zugehorigkeit eines Bildes in einem Zeichenfenster zu einem speziellen Zeichen auf 
zahlreiche alphabetische Zeichengmppen anwendbar ist. Beispielsweise konnen isits fiir kyrillische Zeichensatze, die 5 
Zeichensatze in slawischen Sprachen, oder fur andere Zeichensatze, z. B. die Zeichensatze fiir Hebraisch oder Arabisch, 
* i mplementiert werden . 

Bei dem beschriebenen Ausfuhrungsbeispiel unterscheiden isits Zeichen aufgnind ihrer Form. Daher werden Zeichen, 
welche die gleiche Togographie haben, von einem einzigen isit erkannt. Der Kleinbuchstabe "p" und der GroBbuchstabe 
"P" werden von demselben isit erkannt. Die Buchstaben *'u" und "U", "s" und "S", "o" und "O" sowie "0" usw. sind wei- to 
tere Beispiele fiir Zeichen, die mit der gleichen oder ahniichen Topographic versehen sind und daher von denselben isits 
erkannt werden. Fiir jede Form oder Topographie wurden Formcharakteristiken gewahlt und experimentell gemessen, so 
daB ein besonderes isit die Form seines Zeichens aus der Form anderer Zeichen iiber einen weiten Bereich von Schrift- 
arten unterscheiden kann. 

Bei dem beschriebenen Ausfuhrungsbeispiel liefert ein isit als Ausgang entweder einen ASCII-Code fur ein spezielles 15 
Zeichen oder einen Code, der anzeigt, daB das Zeichen als zugehorig zu einer speziellen Zeichenklasse erkannt worden 
ist, oder einen Zuriickweisungscode, der anzeigt, daB das Zeichen nicht erkannt worden ist. Die Ausgabe des ASCII- 
Code fiir ein spezielles Zeichen zeigt an, daB die Zeichenidentifizierung durch die isit-Routine unzweideutig isL Der zu- 
ruckgefuhrte ASCII-Code ist der Standard- ASCII-Code fur das spezielle Zeichen. Ein Code, der angibt, daB das Zeichen 
zu einer besonderen Zeichenklasse gehort, beschrankt jede nachfolgende Merkmalsanalyse auf einen speziellen Satz 20 
oder eine spezielle Gruppe von isits. 

Im folgenden wird auf Fig, 13 Bezug genommen, in der ein Ablaufdiagramm des beschriebenen Merkmalsanalysepro- 
zesses dargestellt ist Fiir jedes dem MerkmalsanalyseprozeB als Eingabe zugefuhrte Bild werden statistische Daten aus 
einem Horizontalfenster und einem Vertikalfenster von den isits benutzt. Das Horizontalfenster ist das urspriingliche Zei- 
chenfenster mit der Bit-map- Abbildung des Zeichens. In Fig. 14(a) ist das Zeichen "b" beispielsweise im horizontalen 25 
Zeichenfenster 1401 gezeigt. Ein Vertikalfenster wird aus dem Horizontalfenster 1401 abgeleitet, Block 1301. Das Ver- 
tikalfenster kann als ein auf der Seite liegendes Bild des Horizontalfensters 1401 angesehen werden, dessen Zeilen je- 
weils eine Positionsumkehr erfahren haben. So zeigt beispielsweise Fig. 14(b) ein Vertikalfenster fiir das Bild des Zei- 
chens "b" im Vertikalfenster 1410. 

Statistische Informationen werden durch Priifen der Bit-map-Bilder im Horizontalfenster 1401 und im Vertikalfenster 30 
1410 erzeugt. Die statistischen Daten enthalten Profildaten, Polygondarstellungen des Zeichens, Phasenanderungsinfor- 
mationen und Zahlungen der Anzahl von Pixeln in jeder Zeile des Zeichens. 

Die bei den beschriebenen erfindungsgemaBen Verfahren angewandten Polygon-AnpaBalgorithmen dampfen die Ef- 
fekte des Rauschens in den zu identifizierenden Bildern und reduzieren betrachtlich das von den Merkmalsrichtungsrou- 
tinen zu verarbeitende Daten volumen. Es wurde auBerdem bestimmt, daB Polygondarstellungen von Zeichenbildern uber 35 
einen weiten Bereich von ZeichengroBen konsi stent sind, z. B. der Buchstabe "i" erzeugt im wesentlichen die gleichen 
Polygondarstellungen in einem weiten Bereich von Schrifttypen. 

Fiir jede Ansicht eines Zeichenfensters werden Profildaten und vier Polygone abgeleitet. Die Ansichten eines Zeichens 
enthalten die linken und rechten Seiten 1403, 1404, 1413 und 1414 der horizontalen und vertikalen Fensten Die Profil- 
daten enthalten ein Feld mit einem Element fur jede Zeile des Fensters. Jedes Element halt einen Wert, gemessen in Spal- 40 
ten, der den Abstand des Rahmenrandes vom ersten "Ein-Pixel" in dieser Zeile darstellt. Es wird beispielsweise auf Fig. 
14(a) Bezug genommen. Das erste Ein-Pixel in jeder Zeile ist bei der Ansicht 1403 das erste Ein-Pixel im Anstrich des 
Buchstabens b. In der Ansicht 1404 ist das erste Ein-Pixel fiir die obere Halfte des Buchstabens b ebenfalls das erste Ein- 
Pixel im Anstrich des Buchstabens b. Fiir die untere Halfte der Ansicht 1404 ist das erste Ein-Pixel fiir jede Zeile das am 
auBeren Rand der Schleife 1405 gelegene Pixel des Buchstabens b. 45 

Ein erstes Polygon wird fur jede Ansicht gebildet. Das Polygon enthalt mehrere Zeilensegmente, die einem Profil des 
Zeichens in Richtung der jeweiligen Ansicht angepaBt ist. Die Zeilensegmente des Polygons liegen innerhalb vorgege- 
bener Toleranzwerte fur das Profil des Zeichens. Beispielsweise ist in Fig. 14(c) ein Profil 1420 des Buchstabens b der 
Ansicht 1404 in Fig. 14(a) gezeigt. Die Punkte 1421 bis 1429 sind die Polygonpunkte welche dieses Profil beschreiben. 
Bei dem beschriebenen Beispiel gibt es maximal 16 Punkte im Polygon zur Beschreibung des speziellen Profils, und fur 50 
jedes Segment werden Steigung und Unterschied der Steigung gegeniiber einem fruheren Segment berechnet und auf- 
rechterhalten. Es ist fur den Fachmann klar, daB eine groBe Anzahl von Punkten, verbunden mit einer entsprechenden 
Zunahme an Bearbeitungs- und Speichermitteln zur Beschreibung eines Polygons verwendet werden kann. 

Die Polygon-AnpaBalgorithmen bestirnrnen die Punkte, wie die Punkte 1421 bis 1429 auf dem Profilbild 1420. Der er- 
ste Schritt beim Polygon- A npaBprozeB ist die Zuordnung von Polygonpunkten 1421 und 1429 an jedem Ende des Poly- 55 
gons. Eine Rekursivroutine wird aufgerufen, in der die Endpunkte eines Liniensegments, beispielsweise die Punkte 1421 
und 1429, das Profilbild 1420 und ein Toleranzwert als Eingaben verwendet werden. Der Toleranzwert bestimmt die 
"Enge" der Anpassung des Polygons an das Profilbild 1420. 

Bei dem beschriebenen Ausfuhrungsbeispiel wird die Toleranz (t) in 128steln eines Pixels gemessen und auf der Basis 
der langen und kurzen Abmessungen eines Fensters nach der folgenden Formel berechnet: 60 

Toleranz (t) = ( 13/4)x + 64, wenn x < 28; und (t) = 5x, wenn x > 28; 
wobei x = (3* (Lange der langen Seite) + (Lange der kurzen Seite) )/4. 

Der PoIygon-AnpaBalgorithrnus zieht efFektiv eine Linie zwischen die Endpunkte 1421 und 1429 und lokalisiert die 65 
am weitesten oberhalb und unterhalb der Linie (Punkte 1422 und 1426) gelegenen Punkte. Wenn jeder Extrernpunkt jen- 
seiis der zulassigen Toleranz liegt, wird er in das Polygon cinbczogcn, wodurch das urspriingliche Zeilen segment in Un- 
tersegniente unterbrochen wird. Der Algorithm us wird durch rekursives Anwenden des gleichen \ferfahrens auf jedes 
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Untersegment solange fo^^Ptzt, bis kein Datenpunkt weiter als die zulassige^Kranz von dem nachsten Polygonseg- 
ment entfernt liegt. Bei dem aktueilen Beispiel liegen beide Extrempunkte (1422 und 1426) auBerhalb der zulassigen To- 
leranz, so daB das urspriingliche Liniensegment in drei Untersegmente 1421 bis 1427, 1422 bis 1426 und 1426 bis 1249 
unterbrochen wird. Der Algorithmic wird durch Zeichnen des Liniensegmentes zwischen Punkten 1421 und 1422 fort- 
5 gesetzt. Dieses Liniensegment hat keine Punkte auBerhalb des Toleranzbereichs ober- und unterhalb, so daB es nicht wei- 
ter unterteilt ist. Der Algorithmus zeichnet dann die Linie zwischen den Punkten 1422 und 1426 und lokalisiert Punkte, 
die am weitesten oberhalb und unterhalb der Linie liegen. In diesem Falie wird der Punkt 1425 als der am weitesten tiber 
dem Toleranzwert gelegene Punkt bestimmt, wahrend kein Punkt unterhalb liegL Dies schafft zwei neue Untersegmente, 
namlich 1422 bis 1425 und 1425 bis 1426. Diese werden rekursiv weiterentwickelt, bevor in dem ProzeB das letzte Un- 

10 tersegment gepruft wird, das sich aus der ersten Iteration des Prozesses ergeben hat. Der ProzeB zieht eventuell eine Linie 
zwischen Punkt 1426 und 1429 und stellt fest, daB Punkt 1428 am weitesten oberhalb der Linie liegt und keine Punkte 
jenseits des Toleranzwerts unterhalb liegen. Die sich ergebenden Untersegmente werden in ahnlicher Weise weiterent- 
wickelt durch rekursive Anwendung des gleichen Verfahrens. 

Der ProzeB der iterativen Erzeugung von Untersegmenten durch Bestimmung von Punkten, welche maximal oberhalb 

15 und unterhalb der Toleranzgrenzen existierender Segmente liegen, wird solange fortgesetzt, bis kein Ursprungsdaten- 
punkt mehr weiter als der Toleranzwert von dem nachsten Polygonsegment des Profils 1420 entfemt liegt. 

Ein zweites Polygon weist Liniensegmente auf, welche Punkte verbinden, die einer Darstellung einer Profilansicht ei- 
nes als Schattenpro&l bezeichneten Zeichens angepaBt sind. Das Schattenprofil wird von einem Profil der Polygonansicht 
dadurch abgeleitet, daB das Polygon von der Bodenzeile zur Kopfzeile durchlaufen und der nunimale X-Wert beim 

20 Durchlaufen des Polygons vom aktueilen AuBenpunkt auf dem Polygon subtrahiert wird. Derselbe \fcrgang wird danach 
von der Kopfzeile zur Bodenzeile des Polygons wiederholt. Der Effekt ist, daB die restlichen nicht-Null-X-Punkte im 
Profil Zonen darstellen, welche effektiv abgeschaltet waren, wenn der Buchstabe von Licht auf beiden Seiten beleuchtet 
ware. Das Schattenpolygon dient zur Bestimmung und Analyse von Offnungen in das Innere eines Zeichens. 

Ein drittes Polygon enthalt Profilpunkte einer Ansicht eines Zeichens, welche durch Subtraction des Schattenprofils 

25 vom urspriinglichen Profil gebildet werden. Dieses Polygon wird als gefulltes Polygon bezeichnet. Sowohl das Schatten- 
polygon als auch das gefullte Polygon haben die gleiche Anzahl von Punkten und die gleichen Y-Koordinaten wie das 
Originalpolygon. 

SchlieBlich wird ein viertes Polygon gebildet, das eine losere Anpassung an das Originalpolygon als das urspriingliche 
Profil hat. Dies geschieht durch Entwicklung eines Polygons aus dem Ursprungspolygon unter \ferwendung weniger 
30 Punkte (d. h. unter Verwendung eines weiteren Toleranzwertes). 

Daten werden sowohl fur das horizontale als auch das vertikale Fenster entwickelt, welche die Zahl von Phasenwech- 
seln von weiB nach schwarz in jeder Zeile des entsprechenden Fensters zahlen. Beispielsweise besteht im Horizontalfen- 
ster der Buchstabe n F generell aus Zeilen mit einer horizontalen Phasenanderung von weiB nach schwarz und der Buch- 
stabe "H" besteht aus Zeilen mit zwei Phasenanderungen von weiB nach schwarz. Die Phasenanderungsinformationen 
35 dienen zur Erzeugung von durch die isit-Routinen verwendeten Statistiken. 

Eine erste Statistik wird entwickelt, welche den Prozentsatz von Zeilen mit einem besonderen Phasenanderungswert 
bezeichnet. So kann beispielsweise fur den Buchstaben T der Wert 1 (Auftreten einer Phasenanderung von weiB nach 
schwarz in der Zeile) nahezu bei 100% der Zeit auftreten. Bei dem Buchstaben "H" kann der Wert 1 uber 5% der Zeit und 
der Wert 2 uber etwa 85% der Zeit auftreten. Bei dem Buchstaben "d" konnen in dem Horizontalfenster O-Phasenande- 
rungszahiungen des Werts 0 auftreten, was bedeutet, daB jede Zeile wenigstens ein Pixel eingeschaltet hat. Es konnen an- 
genahert 55% der Zeilen eine Phasenanderung erfahren, und diese Zeilen enthalten die obere Halfte des Buchstabens "d". 
Die restlichen ca. 45% der Zeilen haben zwei Phasenanderungen, und diese Zeilen umfassen die Schleife des Buchsta- 
bens _"d". Es gibt keine Zeilen mit drei oder vier_ Phasenanderungen. 

Bei dem beschriebenen Ausfuhrungsbeispiel werden Zeilen mit mehr als vier Phasenanderungen wie Zeilen mit genau 
vier Phasenanderungen gezahlt, und zwar zura Zwecke der Berechnung dieser Prozentwerte. Die Grenze von vier Pha- 
senanderungen wurde von der Anrnelderin aus experimentellen Daten und Beobachtungen entwickelt. TVpischerweise 
treten mehr als vier Phasenanderungen bei starken Rauscheinflussen im Bit-mapped- Bild auf. 

Eine zweite Statistik wird entwickelt, die angibt, wo die Mitte einer besonderen Phasenanderungszahlung im Zeichen- 
bild auftritt. Bei dem Buchstaben "I" ist der " wo"-Wert fiir die Phasenanderungszahlung von 1 nahe bei 50. Dies zeigt die 
Mittelstellung einer Linie mit einer Phasenanderungszahlung von 1 ungefahr in der Zeichenmitte an. Bei dem Buchsta- 
ben n d" ist der wo- Wert fur die Phasenanderungszahlung des Werts von 1 etwa bei 20, was angibt, daB der Mittelwert der 
Zeilenzahlen mit einer einzigen Phasenanderung etwa bei 20% des Weges abwarts des Zeichens liegt. Der wo- Wert fur 
eine Phasenanderungszahlung von 2 kann etwa 75 sein, was anzeigt, daB der Mittelwert der Zeilenzahlen mit zwei Pha- 
senanderungen etwa drei Viertel des Weges abwarts des Buchstabens liegt. Dies liegt daran, daB die Schleife des Klein- 
buchstabens M d" in der unteren Halite des Zeichens liegt. 

Es wird auch ein Feld sowohl fur das horizontale als auch das vertikale Fenster entwickelt, das ein Element fur jede 
Zeile des Fensters mit einem Werf fur die Anzahl von "Ein"-Pixeln in dieser Zeile enthalt. Die Polygone werden auch an 
diese Felder angepaBt. 

Die isiLs dienen zur individuellen Analyse des Zeichens, Block 1304, bis das Zeichen erkanot ist. Eine besondere isit- 
Routine kann von irgendeiner aus einer Anzahl von Methoden Gebrauch machen, urn zu identifizieren, ob ein Zeichen 
gleich dem durch das besondere isit zu identifizierenden Zeichen ist. In einigen Fallen, in denen sich der Stil eines Zei- 
chens von Schriftart zu Schriftart betrachtlich andert, konnen mehrere unterschiedliche Methoden zur Erkennung des 
Zeichens verwendet werden. Typischerweise analysieren die isit-Routinen die Form der einzelnen Zeichenansichten 
durch Verwendung der oben beschriebenen Polygone und durch Verwendung der oben angegebenen statistischen Infor- 
mationen. Die Verwendung von Polygonen zur Approximation von Zeichen erlaubt es einer isit-Routine in der Regel, 
kleinere Storungen und UnregelmaBigkeiten des Zeichens zu ignorieren. 

Eine erste Methode, die von isits zur Bestimmung eines Bildes des Zeichens benutzt wird. besteht in der Prufung der 
statistischen Informationen aus den Phasenanderungsdaten. So kann beispielsweise ein spezielles isit ein Zeichen zu- 
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riickweisen, in welchem der Prol^^^z von Zeilen mit zwei Anderungen von weiB^^^chwarz 10% iibersteigt. Ein 
Beispiel eines solchen isit ist ein isit zur Erkennung des Zeichens "I". GenereLl rnacht es diese Methode der Untersuchung 
statistischer Informationen fur die meisten isits moglich, 70 bis 85% aller ihnen als Eingaben zugefuhrten Bilder mit ei- 
nem Minimum an Verarbeitungsmitteln zu eliminieren. 

Ein anderes Verfahren, mit dem bestimmt werden kann, ob ein spezielles Zeichen ein von einern speziellen isit zu er- 5 
kennendes Zeichen ist, ist die Prufung von Spitzen in den Polygonen. So ist beispielsweise der GroBbuchstabe "F" da- 
durch gekennzeichnet, daB er zwei extreme Spitzen bei Betrachtung von seiner rechten Horizontalseite aus aufweist. isits 
konnen Zeichen sowohl aufgrund der Anzahl von Spitzen als auch deren Relativlage identifizieren. So muB beispiels- 
weise ein isit zur Erkennung des Buchstabens "F 1 den Buchstaben "c" zuriickweisen, da die Anzahl und relative Lage der 
Spitzen in einer seiner Ansichten oder in einer seiner Populationszahlfelder nicht richtig ist. 10 

Einige Zeichen sind gekennzeichnet durch einen "Balken" oder eine "Rampe" (das ist die linke Ansicht eines B, b, h, 
k, A, D, E usw.). Ein isit zur Erkennung solcher Zeichen kann ein Zeichen auf das langste Einzeisegrnent im Zeichen un- 
tersuchen und nach Charakteristiken, wie dem Prozentsatz der Lange des langsten Segments zur Lange des Zeichens als 
Ganzem und der Steigung des Segments suchen. 

Eine andere Methode, die von isits zur Identifizierung von Zeichen benutzt wird, ist die Identifizierung von Schleifen 15 
in den Zeichen. Eine Schleife kann als Linie mit primar zwei Anderungen von weiB nach schwarz iiber jede Zeile der 
Schleife identifiziert werden. Die isits identifizieren die Steilheit der Kurve der Schleife, die relative Symmetrie der 
Kurve und Informationen fiber Ecken der Schleife. So kann beispielsweise die Zahl M 8" haufig von dem Buchstaben "B" 
aufgrund der Unterschiede in den Ecken unterschieden werden. 

We oben gesagt, schickt ein isit nach Beendigung einer Analyse entweder den ASCII-Code oder den Formcode fur 20 
das spezielle Bild oder die Information unter Angabe des Zuruckweisungsgrundes zuriick. Wenn das Bild erkannt wurde, 
Zweig 1306, wird eine Schablone in der oben beschriebenen Weise in Verbindung rnit der Schablonenanpassung, Block 
1307, gebildet. Der Identifizierungscode wird dann auf die Zeichenfahne bewegt 

Anderenfalls wird das nachste isit auf der Basis von Parametern, wie die Haufigkeit des durch das isit dargestellten 
Zeichens und aufgrund von aus vorhergehenden isits gewonnenen Informationen iiber die Griinde fur die Zuriickweisung 25 
des Zeichens, Zweig 1310, ausgewahlt. Wenn keine isits mehr vorhanden sind, Zweig 1311, wird das Bild im Zeichen- 
fenster in den Zuriickweisungscache bewegt Anderenfalls, Zweig 1312, wird das Zeichen vom nachsten isit analysiert, 
Block 1304. 

SEITENANPASSUNG 30 

In vielen Fallen kann ein Zeichen weder durch die Schablonenanpassung noch durch die Merkmalsanalysenroutinen 
erkannt werden, da das Zeichen an einem benachbarten Zeichen "klebt". Dies geschieht beispielsweise dann, wenn Zei- 
chen aufgrund der Qualitat des Druckprozesses zu eng zusammenhangen. Als typisches Beispiel konnen zusamrnenge- 
klebte Zeichen auftreten, wenn die Druckfarbe, Tusche oder Tinte in einem aus Proportionaltext zusammengesetzten Do- 35 
kument zerflieBt. 

Es wird ein Verfahren, genannt "Seitenanpassung", zum Identifizieren derartiger zusammenflieBender Zeichen be- 
schrieben. Beim Analysieren eines Zeichenfensters unter Verwendung der Seitenanpassung werden Schablonen effektiv 
auf die Seiten des Zeichenfensters gelegt, urn festzustellen, ob eine Ubereinstimmung mit dieser Schablone auftreten 
wurde, wenn alle Pixel im "Schatten" dieser Schablone ignoriert wiirden. Die Seitenanpassungsmethoden machen von 40 
den gleichen Schablonenvergleichsalgorithmen Gebrauch, die oben unter Bezugnahme auf die Schablonenanpassung 
diskutiert wurden; jedoch ignorieren die Seitenanpassungsmethoden die Bilder auf den rechten oder linken Seiten. 

Wenn beispielsweise ein Zeichenfenster das Zeichen "ite" enthalt, wobei alle Buchstaben zusammengeklebt sind, 
sucht der SeitenanpaBprozeB Schablonen auf die linken und rechten Seiten des Zeichenfensters zu legen. Jede dieser 
Schablonen wird dabei rnit der linken Seite des Zeichenfensters ausgerichtet, um eine Ubereinstimmung auf der linken 45 
Seite zu suchen, wahrend Pixel rechts von den Ein-Pixeln in der Schablone ignoriert werden. Bei dem aktuellen Beispiel 
wurde ein Auflegen einer Schablone mit dem Zeichen "i" auf die linke Seite des Zeichenfensters eine Ubereinstimmung 
ergeben. Ist dies der Fall, so wird der ASCII-Code fur ein "i M in der Fahne registriert, und der SeitenanpaBprozeB entfernt 
die den Buchstaben "i" darstellenden Pixel aus dem Fenster. Das Verfahren wird danach fortgesetzt, indem eine Seiten- 
anpassung an den restlichen Pixeln im Fenster versucht wird. In diesem Falle wiirde eine Ubereinstimmung auftreten, 50 
wenn eine Schablone fur das Zeichen "t" verwendet wiirde. 3 

Die Seitenanpassungs methode kann sowohl fur die rechte als auch fur die linke Seite eines Zeichenfensters benutzt 
werden und wird angewandt auf alle mog lichen vertikalen Ausrichtungen. Wenn die Seitenanpassung von der linken 
Seite des Zeichenfensters unerkannte Zeichen ubrig laBt, wird die Seitenanpassung von der rechten Seite aus versucht. 

Da einige Buchstabenformen Untergruppen von anderen sind (z. B. r-n-m oder c-o-d), werden die Schablonen vor ih- 55 
rer Verwendung bei der Seitenanpassung nach der GroBe geordneL Einige Schablonen (z. B. ein Punkt) sind vom Seiten- 
anpaBprozeB deshalb ausgeschlossen, da derartige Schablonen Ubereinstimrnungen mit praktisch alien Bildern ergeben. 

Bei dem beschriebenen Beispiel wird die Seitenanpassung an Zeichenfenslern im Zuriickweisungscache nach Beendi- 
gung der Verarbeitung aller Zeichen im Dokument versucht. Dies ermoglicht die Erzeugung einer relativ groBen Biblio- 
thek von Schablonen und erhoht die Chancen einer erfolgreichen Identifizierung von Buchstaben mit Hilfe der Seitenan- 60 
paBmethode. 

KO NTEXTAN ALYS E 

Mit dem Zeichenerkennungs verfahren werden Zeichen nach ihrer Form identifiziert. Die Form des Zeichens a 1 lei n ist 65 
jedoch in einigen Fallen nicht eindeutig bestimmend fur das Zeichen selbst. Beispielsweise laBt sich der Kleinbuchstabe 
s ' unter Umstandcn nicht von dem GroB buchstaben "S" untcrschciden. Als anderes Beispiel ist ein Apostroph aufgrund 
seiner Form allein nicht von einem Komma untcrscheidbar. Die Koniextanalysenroutine akzcptiert als Eingabe und ver- 
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wendet als Ausgabe die fl^^der Zeichencodes, wie sie von den Zeichenerk^BRigsroutinen erzeugt wird. Eine Kon- 
textanaiyse wird an einer Seitenzeile oder -linie gieichzeitig durchgefuhrt, und zwar in deni Versuch, Unsicherheiten zu 
klaren. Im folgenden wird auf Fig. 15 Bezug genommen, in der das Verfahren nach einern bevorzugten Beispiel der Er- 
findung dargestellt ist. 

Das beschriebene Beispiel der Erfindung enthalt eine Datenbank mit charakteristischen Attributen der verschiedenen 
Zeichen. Diese Attribute konnen Informarionen dariiber beinhalten, ob das Zeichen typischerweise vollstandig uber der 
Grundlinie der Zeichenzeile liegt oder ob eine Unterlange oder ein anderer Teil des Zeichens sich typischerweise unter 
die Grundlinie erstreckt. Die Datenbank enthalt auch Informationen uber die relative GroBe der Zeichen, die normaler- 
weise zweifelhaft ist, wenn nach der Form allein identifiziert wird. So kann die Datenbank beispielsweise Informationen 
zur Unterscheidung zwischen GroB- und Kleinbuchstaben "S" und V auf der Basis der erwarteten RelativgroBe enthal- 
ten. 

Jede Zeile der Seite wird aus der Fahne in einen Puffer zur Vorbereitung der Zeile fiir die Weiterverarbeitung kopiert, 
Block 1501. Wahrend dieses Kopiervorgangs einer Zeile in den Puffer werden den Zeichen aus der Zeichenattribut-Da- 
tenbank Werte zugeordnet, wie Informationen dariiber, ob die Zeichen uber die Basislinie hinausgehen und ob die rela- 
tive GroBe des Zeichens einen GroB- oder Kleinbuchstaben charakterisiert. Der Abstand zwischen Worten wird ebenfalls 
an dieser Stelle dadurch bestirnmt, daB ein Histogramm der Abstande zwischen Buchstaben konstruiert und analysiert 
wird. Wenn Mehrdeutigkeiten fiir ein Zeichen geklart werden, macht die Erfindung von bei der Klarung dieser Mehrdeu- 
tigkeiten gewonnenen Informationen Gebrauch, um Mehrdeutigkeiten der benachbarten Zeichen zu losen. 

Die Basishnie wird auch beziiglich der Schraglage eingestellt. Bei dem beschriebenen Ausfuhrungsbeispiel kann die 
Schraglage dadurch eingestellt werden, daB die erwartete Basislinie fur jeden Einzelbuchstaben gepruft und die Basisli- 
nie fur die Gesamtzeile aufgrund dieser Information eingestellt wird. Wenn die Werte fur die Basislinie aber von Zeichen 
zu Zeichen oder von Wort zu Wort wesentlich voneinander abweichen, wird ein Zeichen nahe jedes Zeiienendes gesucht, 
das eine mit ausreichender Zuverlassigkeit auf der Basislinie befindliche Position hat (z. B. der Buchstabe "B" sitzt auf 
der Basislinie, wahrend die Lage des Buchstabens W Q" nicht als ausreichend zuverlassig auf der Basislinie gelegen ange- 
sehen werden kann, da bei einigen Schrifttypen ein FuB oder Abstrich uber die Basislinie hinausgehen kann). Danach 
wird eine eingestellte Basislinie dadurch bestirnmt, daB man eine den Boden dieser beiden Zeichen nahe jedes Zeiienen- 
des verbindende Gerade zeichnet. 

Die typischen Hohen von Klein- und GroBbuchstaben in der Zeile werden durch Bildung von Histograrnrnirifonnatio- 
nen bestirnmt, welche die Hohen von unzweifelhafl bestimmten Zeichen zeigen. Normalerweise zeigen derartige Histo- 
gramme zwei Spitzenniveaus, unter denen ein erstes Niveau den Kleinbuchstaben und ein zweites Niveau den GroB- 
buchstaben entspricht. 

Gewisse Zeichentypen, wie Unterstreichungen, werden zum Ende des Pufferbereichs bewegt Dies ermoglicht es, daB 
diese Zeichen wahrend des Hauptteils der Kontextanalyse effektiv ignoriert werden. Solche Zeichen werden an ihren 
yorhergehenden Positionen in der Zeile kurz vor Beendigung des Zeichenanalysevorgangs wiederhergestellt. 

SchUeBlich wird eine Histogrammtypanalyse von der Breite des weiBen Raums zwischen benachbarten Zeichen in der 
Zeile durchgefuhrt. Bei dem beschriebenen Beispiel werden Punktzeichen in die Histogrammanalyse nicht einbezogen, 
wenn die Zeile nicht vollstandig aus gepunkteten Linien besteht. Typischerweise hat das Histogramm zwei Spitzenni- 
veaus. Das erste Spitzenniveau wird angenommen als Darstellung des Zeichenabstands zwischen Einzelbuchstaben in- 
nerhalb von Worten, und das zweite Spitzenniveau wird als Wortabstandsniveau angenommen. Wenn es keine zwei un- 
terschiedlichen Spitzenniveaus gibt, wird der Wortabstand angenommen als ein Mittelpunkt zwischen Spitzenniveaus. 
Wenn es nicht wenigstens zwei Spitzen gibt, wird ein willkurlicher Wortabstand auf der Basis mittlerer Hohen von Zei- 
chen in der Zeile bestirnmt. 

Nach der Praparierung der Zeile fur die Kontextanalyse, Block 1501, wird ein erster Durchlauf uber jedes Zeichen in - 
der Zeile durchgefuhrt, Block 1502, um Mehrdeutigkeiten zu klaren. Dieser erste Durchlauf sucht nach solchen Charak- 
teristiken, wie der reiativen Hone von Zeichen in jedem Wort, den Positionen relativ zur Grundlinie usw.. In den Fallen, 
bei denen die Unterscheidung zwischen einer Zahl und einem Buchstaben unklar ist, wird das Zeichen relativ zu anderen 
Zeichen in der Nachbarschaft analysiert, um zu bestimmen, ob dieses oder benachbarte Zeichen numerisch oder alpha- 
betisch sind. Die Bestimmung von Zeichenmehrdeutigkeiten erfolgt nach einem iterativen ProzeB, bei dem uber Nach- 
barzeichen bekannte Informationen fur die Analyse eines speziellen Zeichens herangezogen werden. Nach der Prufung 
aller Zeichen in einem Wort werden Konsistenzpriifungen durchgefuhrt. Wenn ein oder mehrere Zeichen mit inkonsi- 
stenten Eigenschaften ermittelt werden, werden alle Zeichen im Wort als moglicherweise falsch interpretiert ausgeflaggt. 
Ein zweiter Durchlauf der Kontextanalysenroutine soli die Interpretation korrigieren. 

Nach Beendigung des ersten Kontextanalysendurchlaufs fur jede Zeile in der Fahne versucht die Kontextanalysenrou- 
tine, eine Schriftart- Identifiziemngsnummer jedem Zeichen in der Fahne zuzuordnen und die ZeichengroBen fur jede 
Schriftart zu bestimmen, Block 1503, Die Schriftartidentifizierung wird uber die Fahne fortgesetzt, indem alle Zeichen, 
die durch Schablonen identifiziert wurden, verfolgt werden, Alle diejenigen Zeichen, welche mit einer speziellen Scha- 
blone ubereinstirnmen, werden rniteinander in einer Verknupfungsliste verknupft, wobei die Verknupfungsliste eine auf 
eine besondere Schablone hinweisende Wurzel hat. Auf der Basis dieser verknupften Zeichenlisten werden unter der Be- 
dingung Worte zu Schriftarten zugeordnet, daB Worte mit von derselben Schablone identifizierten Zeichen dieselbe 
Schriftart haben. Dieser ist ein langer iterativer ProzeB. Nachher werden Histogramnunformationen ersteilt, welche die 
Hohe von GroB- und Kleinbuchstaben in jeder Schriftart detailliert beschreiben. 

Danach wird ein zweiter Durchlauf uber jede Zeile in der Fahne durchgefuhrt, Block 1504. Wahrend des ersten Durch- 
laufs als unstimmig ausgeflaggte Worte werden erneut analysiert, um festzustellen, welche Buchstaben unrichtig sind. 
Der zweite Durchlauf pruft solche Kennzeichen, wie GrundliniengleichrnaBigkeit, ZeichengroBengleichmaBigkeit, al- 
phabetischen/numerischen Kontext usw„ 

SchlieBlich wird ein Reihe von gemischten Sauberungsroutinen verwendet. Block 1505. Hierzu gehoren die Prufung 
der Zeichen setzung zur Gewahrleistung einer vemunftigen GroBe und Position. Beispielsweise wird ein ubergioBes 
Satzzeichen wahrscheinlich als unerkanntes Zeichen behandclt und als solches ausgeflaggt. Punkte und relativ breite 
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Kommas oder Apostrophe, die iia^^ Basislinie und unterhalb des oberen Endes deJ^Bmbuchstabens liegen, konnen 
kurze Gedankenstriche oder Punktfolgen sein. Diese Zeichen werden dem ASCII-Code fur einen Gedanken- oder Bin- 
destrich zugeordnet. Bei dem Versuch, in einem Bit-mapped-Bild, das einen nicht-gedruckten Text darstellt, etwas wie 
eine Unterschrift oder ein Logo zu erkennen, ist das Ergebnis typischerweise eine Folge niit unerkannten Zeichen und ein 
Satz anderer Zeichen, wie Satzzeichen und Gedankenstrichen. Derartige Folgen kollabieren in einem einzigen unerkann- 5 
ten Zeichen. Aufeinanderfolgende einzelne Angaben werden in doppelte Anfuhrungszeichen zusammengefaBt. 

Die Kontextanalysenroutine versucht auch, durch die Zeichenerkennungsroutinen getrennte Zeichen zu verschmelzen. 
So konnen beispielsweise zwei Zeichen, die von den Zeichenerkennungsroutinen als offene Klammem erkannt worden 
sind "(", gefolgt von einer geschlossenen Klammer M ) ,i tatsachlich den Buchstaben "CT darsteilen. Die Kontextanalysen- 
routinen versuchen, derartig gesplittete Zeichen dadurch zu vereinigen, daB sie die Positionsnahe und die Zusammenge- to 
horigkeit spezieller Zeichenpaare erkennt. 

Andere Zeichen, wie Unterstreichungen, werden analysiert, urn festzusteilen, ob sie innerhalb einer vorgegebenen Di- 
stanz von der Basislinie liegen. Wenn die Unterstreichung mehr als eine vorgegebene Distanz entfemt ist oder wenn ihre 
Rander nicht mit den Wortgrenzen zusammenfallen, wird sie als Linie und nicht als Unterstreichung aufgefaBt Anderer- 
seits werden die Zeichen oberhalb der Unterstreichung als unterstrichen ausgeflaggt. Die vorgegebene Distanz wird auf 15 
der Basis des relativen Kontextes der Zeile, einschlieBlich solcher Faktoren wie GroBe der Buchstaben, bestimmt 

Die Kontextanalysenroutinen versuchen, nicht- identifizierte Zeichen durch Verschmelzen unterbrochener Zeichen- 
teile, durch Wiedereinfuhren von Zeichen in die Zeichenerkennungsroutinen und die Anlegung weniger scharfer Be- 
schrankungen fur die Erkennung zu identifizieren. 

Am Ausgang der Kontextanalysenroutinen erscheint die vollstandige abgetastete Seite mit ASCII-Zeichendarstellun- 20 
gen fiir die Zeichen auf der Seite in der normalen Lesefolge der Zeichen. 

Patentanspriiche 

1 . Verfahren zum Erkennen von Zeichen auf einem Medium 25 . 
wobei das Medium abgetastet und ein Bit-mapped-Bild des Mediums erzeugt wird; 

wobei das Bit-mapped-Bild einer Strukturanalyse (103, 203, 232) zum Isolieren einzelner Zeichen unterworfen 
wird und als Ausgabe der Strukturanalyse ein Bit-mapped-Bild der Zeichen erzeugt wird; 
wobei die Zeichen vorlaufig identifiziert werden (234); und 

wobei jedes Zeichen auf der Basis des das Zeichen im Medium umgebenden Kontextes analysiert wird (104); 30 
dadurch gekennzeichnet, 

a) daB eine Textzeile in dem Medium zum Bestimmen von raurnlichen Informationen uber die Textzeile ana- 
lysiert wird; 

b) daB Attributdaten fiir jedes vorlaufig identifizierte Zeichen in der Textzeile gewonnen und diesera Zeichen 
zugeordnet werden; und 35 

c) daB Mehrdeutigkeiten bei einem vorlaufig identifizierten Zeichen mit Hilfe der raurnlichen Informationen 
uber die Textzeile und rnit Hilfe der zugeordneten Attributdaten aufgeldst werden (1502). 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB die raurnlichen Informationen Informationen uber den 
Schragfehler der Textzeile, den Zeichenabstand und uber Zeichenhohen (1503) umfassen. 

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, 40 
daB ein Histogramm der Abstande zwischen den Zeichen in der Textzeile erzeugt wird; und 

daB die mittlere Hohe von unzweifelhaft identifizierten Zeichen in der Textzeile bestimmt wird (1503). 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, 

daB eine Datenbank von charakteristischen Attributen bekannter Zeichen vorgesehen wird; und 

daB auf die Datenbank zum Gewinnen von charakteristischen Attributen des raehrdeutigen Zeichens zugegriffen 45 
wird. 

5. Anordnung zum Erkennen von Zeichen auf einem Medium mit 

einer Scannereinrichtung, die ausgangsseitig ein Bit-mapped-Bild des Mediums erzeugt; 
einem mit der Scannereinrichtung gekoppelten Speicher zum Speichern des Bit-mapped-Bildes; 

einer mit dem Speicher gekoppelten Prozessoreinrichtung zur Strukturanalyse des Bit-mapped-Bildes des Mediums 50 
und zur Ausgabe einer Bit-mapped-Darstellung der Zeichen; 
einer Einrichtung zum vorlaufigen Identifizieren der Zeichen und 

einer Einrichtung zum Analysieren jedes Zeichens auf der Basis des das Zeichen im Medium umgebenden Kontex- 
tes, wobei die Einrichtung zum Analysieren gekennzeichnet ist durch: 

eine erste Einrichtung zum Analysieren einer Textzeile zum Bestimmen von raurnlichen Informationen uber die 55 
Textzeile im Medium; 

eine zwei te Einrichtung zum. Gewinnen und Zuordncn von Attributdaten fur jedes vorlaufig identifizierte Zeichen in 
der Textzeile; und 

eine mit der ersten und der zweiten Einrichtung gekoppelte Einrichtung zum Auflosen von Mehrdeutigkeiten bei ei- 
nem vorlaufig identifizierten Zeichen mit Hilfe der raurnlichen Informationen uber die Textzeile und der zugeord- 60 
neten Attributdaten. 

6. Anordnung nach Anspruch 5, dadurch gekennzeichnet daB die Einrichtung zum Analysieren einer Textzeile 
eine Einrichtung zum Beschreiben des Schragfehlers der Textzeile, von Zeichenabstandsinformationen und von 
Zeichenhohen aufweisL 

7. Anordnung nach Anspruch 5 oder 6, wobei die Einrichtung zum Analysieren einer Textzeile eine Einrichtung 65 
zum Erzeugen eines Histograrnms der Abstande zwischen den Zeichen in der Textzeile und eine Einrichtung zum 
Bestimmen der mittleren Hohe von unzweifelhaft identifizierten Zeichen in der Textzeile umfasst. 

8. Anordnung nach einem der Anspriiche 5 bis 7, gekennzeichnet durch 
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eine Datenbank-EinrlWWhg fur charakteristische Attribute von bekannteMHchen; und durcb 
eine Einrichtung zum Zugreifen auf die Datenbank-Einrichtung zum Gewinnen von charakteristischen Attributen 
eines mehrdeutigen Zeichens. 
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